原创!在文章中添加“文字指纹”,追踪盗版源头

2021-04-29 12:07:26 +08:00
 sillydaddy

帖子“ 有没有办法防止 app 内资源被提取呢 ”里面提到了对自己著作权内容被盗取的担心。

这个问题的背景就不多说了,说多了都是泪。直接呈上我思考的方案,欢迎点赞+批判:


我的方案


  1. 要有注册机制,以便区分不同的用户

  2. 对于同一篇著作内容,在分发给不同的用户前,都加上独特可区分的水印,一旦出现盗版,可以知道是哪个用户泄露

  3. 定位盗版源头后,永封源头用户,钱款不退。提高用户被永封后的直接损失,把走法律诉讼这种高成本的动作转移给对方。

  4. 重点讨论给纯文字添加水印的方法,要让这种水印不能轻易被抹除、篡改。方法包括:

    • 文字替换,同义词替换
    • 句子的顺序调换
    • 句子、段落的增+,减-

盗版者的手段和困境


抹除水印的方法,说白了就是对带有水印的内容,进行“扭曲变形”,让水印无法再辨别。那么文字的“扭曲变形”,就只能是修改文字自身的内容了。那么,分析一下针对上面 3 种“文字水印”的破环手段和效果:

  1. 针对特定的“文字替换,同义词替换”

    只要我把文章中的所有字词都用同义词替换一遍,原有的替换效果就全被破坏了

  2. 针对特定的“句子的顺序调换”

    只要我把文章中的句子顺序都打乱,原有的调换效果就被破坏了

  3. 针对特定的“句子、段落的增+,减-”

    只要我把文章中的句子段落随机增删,原有的增+减-效果就被破坏了

等一下。。看起来哪里不对劲。。替换文章所有字词还算勉强可行,但随意增+删-,以及调换句子顺序,那文章还能读吗?

对,这就是试图破坏这些水印所面临的困难!也是这些水印可行的原因!


三维水印空间


字词替换、句子顺序调换、句子增+减-,这 3 种方法中,每一种下面都有 N 多种具体的选择,都可以选择文章中具体的某个字词、某个句子进行操作。用个比喻的话,这 3 种方法可以看作是文字水印的 3 个维度。而具体的水印,则是这“三维水印空间”中的某 1 点:

盗版者并不知道所加水印点的具体位置,所以要破环它,只有尽量扰乱整个水印空间,也就是说,

这意味着什么呢:

而添加水印对创作者的难度呢:

大家怎么看


可以看出,水印空间的维度越高,破坏水印越困难,而添加水印则越简单。上面给出的是一个 3 维的水印空间,也就是添加“文字水印”的 3 种方法,还有其他的方法吗?

10603 次点击
所在节点    奇思妙想
106 条回复
ijrou
2021-04-29 12:39:30 +08:00
5pyJ77yM5L2G5piv5LiN5ZGK6K+J5L2g
oott123
2021-04-29 12:42:08 +08:00
盗版者注册 5 个用户 diff 一下,把不一样的地方挑出来丢掉,咋办
dzdh
2021-04-29 12:45:31 +08:00
影响正常阅读不
截屏 ocr
Rocketer
2021-04-29 12:48:24 +08:00
我觉得不用那么复杂,只替换一些同义字词就应该能产生很多指纹了。

以“的地得”为例,一篇文章里只需 10 个,就能产生 3^10=59049 种组合,20 个就是 34 亿,足够了,连容错都够了
sillydaddy
2021-04-29 12:59:51 +08:00
@oott123 #2
差分攻击,厉害! 嗯。。考虑一下编码。。
sillydaddy
2021-04-29 13:01:50 +08:00
@Rocketer #4
“的地得”这种很容易被修改,程序可以自动替换。
abersheeran
2021-04-29 13:06:58 +08:00
替换同义词,含义很可能会变。句子增减,含义也会变。顺序调换就别说了,更会变。

形容好文,有一词:只字不可换。通过替换是绝对行不通的。
renmu123
2021-04-29 13:07:02 +08:00
没有那么多同义词给你替换,就算是同义词具体在某些地方的含义也是不一样的,“的地得”三种明显使用场景是不一样的,正版读者应该是没办法接受这一点的,编辑可能也没办法接受,我花钱了你就喂我吃这种屎(仅做类比,防杠)?
而且没办法解决有多个账号的数据进行对比,这个规律没有那么难找。
AlisaDestiny
2021-04-29 13:11:26 +08:00
阿里巴巴公司根据截图查到泄露信息的具体员工的技术是什么? - fuqiang liu 的回答 - 知乎
https://www.zhihu.com/question/50735753/answer/122593277
wzzzx
2021-04-29 13:19:39 +08:00
图片的话还好操作,但是文字可能就很麻烦。比如这段话你能找出多少个同义词替换呢?
sillydaddy
2021-04-29 13:19:41 +08:00
@abersheeran #7
替换同义词,含义很可能会变。句子增减,含义也会变。顺序调换就别说了,更会变。
=>句子增减,含义很可能会变。替换同义词,含义也会变。顺序调换就别说了,更会变。

@renmu123 #8
替换示例:没有那么多同义词(近义词)给你替换,就算是同义词(近义词)具体在某些(一些)地方(位置)的含义(意思)也是不一样(不同)的

@AlisaDestiny #9
文字和图像不一样啊,不过本质都是在不影响原有体验的情况下,添加隐藏的信息。
necpom
2021-04-29 13:23:01 +08:00
文本的内容是完全没法防盗的,只要利益够。兄弟,你看过盗版小说吗。早些年盗版都是手打文章的,错别字你都能看出来用的是拼音还是五笔,那时候盗版更新和正版有延迟,后来直接上 ocr,基本快和正版的小说同步更新了。
abersheeran
2021-04-29 13:25:52 +08:00
@sillydaddy 我就知道你要替换我的话来作为例子。很可能会变、也会变、更会变,这几个词显然是有强弱关系的。我本来想表达“替换同义词”的影响小于“句子增减”小于“顺序调换”,你替换了我的话之后呢?
sillydaddy
2021-04-29 13:30:28 +08:00
@necpom #12,兄弟,你跑题了。主题里这种防盗版方法是有条件的。注册制、多篇文章。。。等等等等

@abersheeran #13,我也只是就你的例子下坡。给定一篇文章,别说是句子的顺序了,甚至段落的顺序也是可以调整的。否则只有一种叙事方式的话, 作家还怎么能叫做作家呢?比如我写的这篇文章,你认为我没办法通过重构段落结构吗?没有办法微调句子间的顺序结构吗?
imn1
2021-04-29 13:31:43 +08:00
藏头诗比你这个更好
no1xsyzy
2021-04-29 13:31:57 +08:00
文字的话现在都是洗稿的了……

如果内容的价值来源于其完全一致性,则是更容易被发现的,比如歌词
https://hackaday.com/2019/06/18/morse-code-catches-google-swiping-lyrics/
genius 发现了 google 复制其歌词,因为其中采用了两种视觉上类似的单引号,形成摩斯码
abersheeran
2021-04-29 13:33:10 +08:00
我建议楼主多看看文学类的书吧。不能因为你是个程序员,手里有个锤子,看天下所有问题就都要锤一下。

版权保护肯定没法从源头做。只能从盗版的分发口去做。

- 比如在搜索引擎里。利用程序判断文章的相似度,对盗版文章进行降权,没有流量就没有利益,自然没人去盗版。

- 比如各平台加入盗版联盟,文章互通有无,利用程序判断相似度,再加上人工审核进行去重,并对其账号降权。

只有做盗版也没什么油水可赚,才会没人去做。否则,就算你查到了是谁在盗版你,你又能怎么样?逼他删文?让他赔钱?送他入狱?
sillydaddy
2021-04-29 13:33:53 +08:00
@imn1 #15 但可能更不好操作,能写 1000 首藏头诗的话。。
@no1xsyzy #16 厉害
abersheeran
2021-04-29 13:34:52 +08:00
@sillydaddy 你已经用事实证明了,你的替换思路在我那句话上不可行。你要是有别的思路,你大可以展示出来。也不用别的例子,还是你改过的那句话,保持我的原意,你来更改。
no1xsyzy
2021-04-29 13:35:13 +08:00
@abersheeran 类 Unix 那么多,各种实现微妙地不同,但其实都能用不是吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/774059

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX