各类读书软件都有在书籍中显示热门笔记的功能。 一本书中间的一个段落被很多人划线标注,就会给其他用户在阅读时展示出来。 但是用户可能划线的部分并不是完全一样的,有的人可能少标注最后一个标点,有的可能省略了前面 2 个字
比如下面这段话,
“也许吧。所以,我的下一个项目必须取得成功,这样我就不会永远后悔过去了。”
用户 A 标注的是:
也许吧。所以,我的下一个项目必须取得成功,这样我就不会永远后悔过去了。
用户 B 标注的是(没有开头的 “也许吧。”):
所以,我的下一个项目必须取得成功,这样我就不会永远后悔过去了。
用户 C 标注的是没有结尾的句号:
也许吧。所以,我的下一个项目必须取得成功,这样我就不会永远后悔过去了
是不是这样的数据可以归类成同一条?如果是的话是怎么归在一起的?按照差异来吗?比如划线的内容 80%都是重叠的,就认为是同一条