有没有搜索引擎能解决重复度过高的问题

2021-04-20 09:38:27 +08:00
 polo3584

现在的互联网,特别是中文互联网,复制粘贴情况太严重了,搜索一个什么东西,前几页的内容高度重复出自同一个博客,被发到各个平台,能不能把相似度很高的内容重叠起来,提高搜索效率。

或者是有什么插件能实现这个功能吗?

1196 次点击
所在节点    问与答
6 条回复
uselessVisitor
2021-04-20 10:05:48 +08:00
Yourshell
2021-04-20 10:30:06 +08:00
这是搜索引擎的本职工作吧
acr0ss
2021-04-20 10:42:39 +08:00
@Yourshell
明显不是。

1. 首先搜索引擎匹配的是搜索关键字相似度。
2. 如果如你所言,搜索引擎相需过滤相似结果,如何保证公平?如何保证留下来的就是原创?
ebingtel
2021-04-20 13:59:29 +08:00
谷歌的搜索内容 基本上没啥重复的了吧 百度的倒是很多重复……simhash 算法?
wjgmytwq
2021-04-20 14:19:43 +08:00
网页去重不是那么好做的,一个网页,不是只包含核心内容那块文字的,google 做的是整体去重,就是整体很相似的。
而且我并不建议去重,为什么呢,因为就算核心内容一样,周边信息也有不一样的地方。
举个例子来说,我之前搜一个问题,搜到了微软的官方网站,就挂了一个标准答案,但是问题没解决。后来我找到一个答案很类似的技术网站,从下面的评论里找到了解决问题的办法。
czfy
2021-04-20 23:15:47 +08:00
内容去重的前提是内容识别

你说标题一模一样,那是最容易的

难就难在同一篇文章被洗稿成 n 篇,意思都是那些,但标题不同,正文可能还改了点,这种机器学习识别率 /分类效率还是不高

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/771812

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX