吐槽贴:现在用中文搜索出正确的答案太难了

2020-11-20 14:56:11 +08:00
 zh584728

感觉中文搜索环境太差了,搜索出正确的结果太难了。

排在前面的永远都是 csdn 、博客园、简书、百度知道、百家号、

要么是转来转去的文章,要么是自己瞎 jer 写的笔记,要么就是得先关注、先注册、先登录才能看。

这还只是搜索的技术性文章

如果是搜索社会科普、新闻、医院、疾病....,感觉像是掉进了粪坑

11981 次点击
所在节点    程序员
132 条回复
cherryas
2020-11-20 15:25:47 +08:00
百度搜不到的话一般 bing 更搜不到
tommyZZM
2020-11-20 15:28:01 +08:00
有一种潜在的可能是,即使将这个问题换成其他非英文语言得出的结论可能是一样的。

例如:
现在用俄文搜索出正确的答案太难了,
现在用土耳其语搜索出正确的答案太难了,
现在用法文搜索出正确的答案太难了
...

但这并不一定说是英语本身具有某种语言优势,可能只是其先发地位,例如信息技术最早发达起来的国家主体语言是英语,造成了网络上英语的内容比较多,反过来又造成了查问题的时候用英语查询得出的结果更准确。
tommyZZM
2020-11-20 15:30:55 +08:00
@nevermlnd 我的网龄长不长不知道,但我确实不是中国第一批用互联网的人,80 年代那时候我还很小,我是 90 年代才接触互联网的。

事实上商业化这个因素,在全球范围内都是一样的,其他语言环境也有同样的现象。

我的实际体验所描述的情况,仅仅局限于一般查询问题,例如技术问题、一般自然科学类的问题。
tommyZZM
2020-11-20 15:32:48 +08:00
@tommyZZM FIX:不对 80 年代我还没出生呢
JackyCDK
2020-11-20 15:38:48 +08:00
还有一堆内容农场恶心人吧
CismonX
2020-11-20 15:44:30 +08:00
和语言关系不大,和用户使用搜索引擎的姿势关系很大

用搜索引擎,要提取出重要的关键字,而不是像提问人类时使用完整的句子

比如,之前看到一个同学在 Google 上搜索:"How to change a single file based on git diff",然后找了半天没找到想要的结果

然后我提醒他,搜索 "git patch",第一条搜索结果就完美解决了他的需求

虽然 Google 的搜索引擎变得越来越智能,现在更容易通过一个句子理解用户的意图了,但是中文支持还不够好,所以会给人带来中文搜索质量差的感觉
ixx
2020-11-20 15:45:15 +08:00
上些网站可以手动屏蔽掉不在结果中显示 会好一点点 剩下的看运气
tommyZZM
2020-11-20 15:47:17 +08:00
很多人不明白这个表述差异是什么情况,举一个简单例子吧

例如一个查问题的人不知道“linux 创建用户的命令行”是什么(这只是我的表述)

他可能会去查询以下其中一个或者是一部分关键词

- linux 新建账号
- linux 创建账号
- linux 新建用户
- linux 创建用户
- linux 新增用户
- linux 新增账号
...

注意上述表述,只是这个问题可能表述的一部分,列举这几个相似程度已经非常接近,在这个问题中实际上是等价的,具体选取的表述则因人而异。

实际上如果你用百度去逐个差上述关键词,会发现他们都被归纳成了同一个关键词 [Linux 创建 /新建 用户]

但是这些组合查出来的结果竟然都是不一样的
BwNVlwSq
2020-11-20 15:47:17 +08:00
辣鸡爬虫站太多了。。。用插件屏蔽的话,第一页有时候只能显示出一两条结果😂
tommyZZM
2020-11-20 15:50:55 +08:00
@CismonX

确实查询问题,只需要动词名词就行了,用来连接句子的介词等没有实际含义的单次都不应该包括
zh584728
2020-11-20 15:52:21 +08:00
@tommyZZM 老哥,歪楼了...当然也有可能是我表达的有些不明确😂

我只是想吐槽一下搜出来的文章质量差,灌水的、转载的、没有验证的就发出来的等等,这里点名批评 csdn 、简书,权重高还都是错的信息
ReinerShir
2020-11-20 15:52:58 +08:00
比较同意#22,个人感觉上升到语言层面有点自卑了
t6attack
2020-11-20 15:56:48 +08:00
不都是百度的锅。但百度背上 50%的锅,一点也不冤。

百度为了打击垃圾站群,采取简单粗暴的方式:把流量向少数大网站集中。于是大网站也干起了垃圾站生意,批量采集内容、堆砌关键词等。百度对于这些“巨型垃圾站”,一律放行,一个不 K 。大量的流量输送这些垃圾内容。
中小网站得不到流量,久而久之就得关闭。我个人的收藏夹里,网站倒闭率超过 90%。也导致大量的文字从互联网上遗失。
所以我并不反感网站大量的 复制粘贴 or 采集。这种行为为互联网保存了很多内容。我主要反感的是伪原创。为了让搜索引擎把文章判断为原创内容,用“人工智障”技术批量替换重排文章内容,生成一些狗屁不通的文章。

伴随着时间推移,中文互联网内容进化路径是这样的:
已关闭早期网站(如天极论坛 /无忧脚本等)->被万能的中国站长采集->站长之间互相采集->二次 /三次 /N 次伪原创(文章已经驴唇不对马嘴)->被巨型网站(如阿里云采集)->作为大型网站被百度赋予极高权重->被网民搜索到。
小型网站->整理保存语句通顺的原始文章->被百度判定为互联网上的大量重复内容->K 掉不收录。
垃圾内容被收录,被索引。正常内容被过滤,这就是中文互联网的尴尬逻辑。
foMM
2020-11-20 15:57:46 +08:00
技术方面还是英文的丰富的多。之前我也吐槽过油管上中文 up 主的技术视频好多都是怎么搭建机场,特别无语。
Flymachine
2020-11-20 16:01:48 +08:00
CSDN 灌水太严重,好多复制粘贴的,没了原图不说,还不给原文链接!
现在只用 Bing 。如果 Bing 找不到,就换成英文再试一次。

和关键词姿势没有关系。再怎么精准的关键词,也挡不住灌水文章。我都怀疑是不是现在的人都学会博客灌水刷资历了。看到好文章,存个书签不就够了么?最多写个索引文章汇总一下,直接复制粘贴干什么?
mingyoung
2020-11-20 16:01:52 +08:00
yanguoyu
2020-11-20 16:03:46 +08:00
而且重复内容极多
dji38838c
2020-11-20 16:06:49 +08:00
因为现在互联网越来越封闭了,有质量的内容少了,搜索引擎也是无源之泉。

微信朋友圈,公众号的内容,都不能被搜索到。
本来这些内容,都会是博客或者网站上的内容。

所以微信为了一己私利,制造这么一个不能被搜索的内生态,是在是互联网开放精神的大敌
lovecy
2020-11-20 16:07:30 +08:00
搜索是个技术活,随着互联网内容的增加,肯定糟粕越来越多的。
`瞎 jer 写的笔记`感觉很不尊重创作者,如果你要官方的内容,请去官方网站找 document,大部分问题其实官方 document 或者论坛都能解决。
博客园就有很多你说的`瞎 jer 写的笔记`,但是没广告+不用登陆,不应该和百家号 CSDN 这种放一起,掉价。
最后 stackoverflow 大法好
t6attack
2020-11-20 16:08:11 +08:00
百度该怎么做?
1.大型垃圾站该 K 就 K,管他是阿里云还是 CSDN 。
2.移动端,凡是破坏移动端 web 生态的网站(让用户进入 APP 继续阅读这种),全部 K 掉不收录。把流量送给专心做移动 web 页面的网站。阻止陷入各家 app 封闭数据的恶性循环。

这样。。不是过半的大型网站要被 K 掉了吗?难- 道- 不- 该- 这- 样- 吗?!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/727553

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX