原创!在文章中添加“文字指纹”,追踪盗版源头

2021-04-29 12:07:26 +08:00
 sillydaddy

帖子“ 有没有办法防止 app 内资源被提取呢 ”里面提到了对自己著作权内容被盗取的担心。

这个问题的背景就不多说了,说多了都是泪。直接呈上我思考的方案,欢迎点赞+批判:


我的方案


  1. 要有注册机制,以便区分不同的用户

  2. 对于同一篇著作内容,在分发给不同的用户前,都加上独特可区分的水印,一旦出现盗版,可以知道是哪个用户泄露

  3. 定位盗版源头后,永封源头用户,钱款不退。提高用户被永封后的直接损失,把走法律诉讼这种高成本的动作转移给对方。

  4. 重点讨论给纯文字添加水印的方法,要让这种水印不能轻易被抹除、篡改。方法包括:

    • 文字替换,同义词替换
    • 句子的顺序调换
    • 句子、段落的增+,减-

盗版者的手段和困境


抹除水印的方法,说白了就是对带有水印的内容,进行“扭曲变形”,让水印无法再辨别。那么文字的“扭曲变形”,就只能是修改文字自身的内容了。那么,分析一下针对上面 3 种“文字水印”的破环手段和效果:

  1. 针对特定的“文字替换,同义词替换”

    只要我把文章中的所有字词都用同义词替换一遍,原有的替换效果就全被破坏了

  2. 针对特定的“句子的顺序调换”

    只要我把文章中的句子顺序都打乱,原有的调换效果就被破坏了

  3. 针对特定的“句子、段落的增+,减-”

    只要我把文章中的句子段落随机增删,原有的增+减-效果就被破坏了

等一下。。看起来哪里不对劲。。替换文章所有字词还算勉强可行,但随意增+删-,以及调换句子顺序,那文章还能读吗?

对,这就是试图破坏这些水印所面临的困难!也是这些水印可行的原因!


三维水印空间


字词替换、句子顺序调换、句子增+减-,这 3 种方法中,每一种下面都有 N 多种具体的选择,都可以选择文章中具体的某个字词、某个句子进行操作。用个比喻的话,这 3 种方法可以看作是文字水印的 3 个维度。而具体的水印,则是这“三维水印空间”中的某 1 点:

盗版者并不知道所加水印点的具体位置,所以要破环它,只有尽量扰乱整个水印空间,也就是说,

这意味着什么呢:

而添加水印对创作者的难度呢:

大家怎么看


可以看出,水印空间的维度越高,破坏水印越困难,而添加水印则越简单。上面给出的是一个 3 维的水印空间,也就是添加“文字水印”的 3 种方法,还有其他的方法吗?

10645 次点击
所在节点    奇思妙想
106 条回复
abersheeran
2021-04-29 13:36:29 +08:00
@no1xsyzy 逻辑滑坡。
renmu123
2021-04-29 13:38:45 +08:00
@sillydaddy 这这个语境下,地方是位置的意思,那在别的语境下,地方可能就是“地址”的意思。

举个例子:两个人在吵架,一个人说,你什么意思。另一个人说:我没什么意思,但你这样有意思吗?
你难道把“意思”统一替换成“含义”,编辑怕不是要发狂了
imn1
2021-04-29 13:41:01 +08:00
@sillydaddy #18
亏你还“奇思妙想”,“藏头诗”就只想到诗?哪种文体不能藏头、藏尾、藏中间?
sillydaddy
2021-04-29 13:42:37 +08:00
@abersheeran #17 > “我建议楼主多看看文学类的书吧。不能因为你是个程序员,手里有个锤子,看天下所有问题就都要锤一下。”

你让我看文学书有个锤子用啊?
如果在别的事情上自己没有控制权,那只能尽量做自己能做的啊。这个逻辑没问题吧?
我的主题就是说要利用追查盗版来源,然后采取封堵泄露源的问题,提高盗版的源头成本啊。盗 1 篇文章就被封 1 个账号,他不得注册 N 多个账号,然后每个账号都付出一定的成本。

你这一上来就是平台联盟,引擎降权,你倒是说说怎么做到?
no1xsyzy
2021-04-29 13:44:16 +08:00
@abersheeran > 只有做盗版也没什么油水可赚,才会没人去做。否则,就算你查到了是谁在盗版你,你又能怎么样?逼他删文?让他赔钱?送他入狱?

这个别扭的方法的前提是:付费方式是长期订阅制,使得在最短订阅周期内发出 N 篇文章。
并且一旦发现一篇盗版,揪出源头封禁。
形成 N 篇文章的钱只能盗走一篇文章。(参考各种 V** 跑路之后那句经典的 “年费价格用一个月”)
除了同义词以外,还有零宽字符、标点符号全半角、韩文平面里的同形字异码字等等
no1xsyzy
2021-04-29 13:45:52 +08:00
@abersheeran 请说明:这如何构成逻辑滑坡?
这两个范畴是完全一致的。
sillydaddy
2021-04-29 13:46:23 +08:00
@renmu123 #22 你是在说程序自动大规模替换的情形吧?如果是人工替换就不会搞错语境了,程序能替换的可能是那种比较明显的。

@imn1 #23 你说的这话就是藏头诗吧? 我咋看不懂啥意思。。
abersheeran
2021-04-29 13:50:12 +08:00
@sillydaddy 封堵盗版分发口,我说的那两是举例,你是看不懂“比如”两个字吗?我让你看文学书,是让你有点文学素养,替换、调转、增减,都是不可行的办法,这玩意但凡语文课上听讲了都能知道。互联网世界上不是只有计算机专业的博客。


@no1xsyzy 你说的是那种动辄几百万字的网络小说是吧?有这个前提的话,这个方法有一定的可行性。
renmu123
2021-04-29 13:51:30 +08:00
@sillydaddy 如果是人工,那这不就是洗稿,而且还要为每一本小说的每一章洗多遍,才能达到指纹的效果。起点有多少小说,一共才多少编辑,全国的编辑都上去洗都不够
abersheeran
2021-04-29 13:53:30 +08:00
@no1xsyzy 行,都听你的。它们范畴一致。乖啊。
sillydaddy
2021-04-29 13:54:35 +08:00
@abersheeran #28
对于不友善的回复,我一向不会友善回应。我只能说,你的逻辑、语气真让人无语。不想把这个变成吵架,跟你的对话到此为止。
abersheeran
2021-04-29 13:55:39 +08:00
@sillydaddy 行,是我的逻辑有问题。我不该否定你们的设想,也不该举反例出来说明你的替换方法无效。
zerofancy
2021-04-29 13:55:59 +08:00
你的手段不应该降低正版用户的阅读体验。有多少人愿意做“正版受害者”?你所说的手段,文字替换,同义词替换、句子的顺序调换、句子、段落的增+,减-,到时候正版用户也错字连篇,谁愿意买账……
learningman
2021-04-29 13:56:49 +08:00
追踪到了又有什么用呢。。。。把那个泄露的用户号删了,人家再注册一个就好了。
aristolochic
2021-04-29 13:58:10 +08:00
自定义字体可以一试,就是要求追踪到用户的话,怕不是每个用户一个字体。当然了,防不过 OCR
no1xsyzy
2021-04-29 14:01:34 +08:00
@abersheeran (其实我之前的构想是针对 “音声”,那个比较好做)
而且引了原串是 “试卷”,那 ABCD 顺序换一下也行
no1xsyzy
2021-04-29 14:03:22 +08:00
@abersheeran 你主张逻辑滑坡,需要你论证逻辑滑坡的构成。
何况我没有中间桥段,只有一层类比,不可能构成滑坡。
wangxiaoaer
2021-04-29 14:06:57 +08:00
人工洗稿你怎么破?
abersheeran
2021-04-29 14:09:50 +08:00
@no1xsyzy 如果只是试卷,那这些方法都行。但这个帖子问题在于扩展到了文章版权这个大的范畴。

文章有许多种,有的人写的跟“郑伯克段于鄢”一样微言大义,有的人写的跟古代策论一样一环扣一环。任何对于原文的变更都会导致这种写的很好的文章出现错误,让给了钱的读者变成“正版文章的受害者”。

如果限定于动辄几百万字的灌水网文,那没问题。如果限定于老师出的试卷,也没问题。但对于富有文学性、用词考究、逻辑缜密的文章,就有大问题了。
no1xsyzy
2021-04-29 14:12:01 +08:00
@learningman 前提是已经付费了,比如一年一订,一个月被发现并清楚,这样增加盗版成本。
@aristolochic 自定义字体是(前置的)抵抗手段,这里的是(后置的)溯源手段。
@zerofancy 方法论上换为零宽或者同形异码也毫无问题,这两个只会破坏搜索。

除此以外,还有比如在线答题,有些人会自己做完做成标准答案 “分享” 给别人。
通过溯源(反正 ABCD 随便调换),把这些喜欢 “分享” 的人分配到一个单独的(可能更难的)题库中去。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/774059

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX