百度真的懂中文吗? 这分词是怎么做的?

2015-09-30 18:33:04 +08:00
 iugo
搜索 "你好".

![百度搜索 你好 的结果 截图]( )

第一个结果:
> 出身比你好的人更努力...

这不是小时候听到的关于造句的笑话吗? 如 "课本: 上课本来就无聊".

第三个结果:
来自百度知道, 标题为 "你好你好...", 可是里面的内容却是 -- 请看图中的答案...

P.S. 平常较少用百度, 现在要更少用百度了.
5452 次点击
所在节点    程序员
37 条回复
simonzhao
2015-09-30 18:41:56 +08:00
你这太片面了,不能说明什么问题。
qdwang
2015-09-30 18:42:59 +08:00
用 google 试试看
yhxx
2015-09-30 18:43:16 +08:00
我家门前有条小河很难过
d7101120120
2015-09-30 18:50:42 +08:00
搜索技术性英文那才叫一个= =
jacy
2015-09-30 18:51:25 +08:00
29EtwXn6t5wgM3fD
2015-09-30 18:53:31 +08:00
搜索引擎从来不懂中文 英文,只懂概率论
watzds
2015-09-30 18:59:54 +08:00
Google 出来什么。。。表姐,你好野
neo1218
2015-09-30 19:04:39 +08:00
neo1218
2015-09-30 19:07:41 +08:00
zhicheng
2015-09-30 19:14:31 +08:00
这是个暂停词吧?
Daddy
2015-09-30 19:23:05 +08:00
LZ 啊,你应该搜索“您好”,这个才是正确的表达用词。

然后,百度的结果第一个是百度图片,图片第一张是露 B 照片~~ 哈哈
Justrover
2015-09-30 19:32:52 +08:00
百度就是个渣,连谷鸽一根脚毛都比不上
windfarer
2015-09-30 19:38:36 +08:00
百度更懂广告
aiyaa
2015-09-30 19:42:53 +08:00
确实感觉太片面了
xrui
2015-09-30 19:45:09 +08:00
有一次我做语文字音题,想搜一下“按捺不住”的读音。结果你猜出来啥了
xfspace
2015-09-30 19:51:21 +08:00
百度更懂人民币。
zjqzxc
2015-09-30 20:16:10 +08:00
虽然这个结果我无法反驳,但是我还是想说两句。

首先,汉藏语系一个突出特点就是,词与词之间没有明显的界限。而我们最熟悉的拉丁语系词与词之间是有空格作为分界的,所以“关键词索引”上,拉丁语系就比汉藏语系要容易。(其它语系我也不熟悉)
汉语的分词,目前采取的常见分词方法有:正向最大匹配,逆向最大匹配,最少切分,双向最大匹配。以上各方法对于一句正常的话来说,分词成功率一般都在 90%以上,所以如果以上结合来制作搜索引擎,在大多数情况下都是可以忍受的。

但是,以上各个分词的目的都是把一句话分成尽量少的分片数,这个原则是存在问题但不严重的。例如一句话:“你好漂亮”;根据以上任何一个分词方法分词的结果几乎都是:你好 /漂亮。实际上这句话的分词情况应该是:你 /好 /漂亮。“好”是副词,用来修饰后面的形容成“漂亮”。所以,这句话是极有可能被“你好”给搜出来的。

再来一个但是:如果分词词典足够庞大以至于可以不用管什么副词形容词动词等词性,完全可以把“好漂亮”作为一个索引项。这样在逆向最大匹配算法下即可得到正确的分词结果(不能算正确吧,“你 /好漂亮”其实并不正确,但已经可以正确理解这句话了)。如果按照这种分词方法,如果我搜索“漂亮”,那这句话就不会被检索到。实际上这句话和“漂亮”还是有很大的关联性的。

综上所述:线代搜索引擎为了尽可能索引全面,会结合使用以上各种分词方法,并根据根据尽可能大的字典进行分词。(严谨点说,“词典”并不是固定的。现代搜索引擎可以根据大量文章内容自动学习出新出现的词汇以弥补手动定义词典不能很快更新的问题)

但是(我又有来但是了),这样一来检索准确性就下来了。以上楼主举例是因为句法没有分析导致的。我再举一例:在宝石学中对宝石的光泽区分比较严格,例如对玻璃光泽的描述除了玻璃光泽之外,常用的还有弱玻璃光泽(光泽明显弱于玻璃光泽,但又不到油脂光泽)。我搜索玻璃光泽时当然不想让弱玻璃光泽出现(因为他们看起来真的真的大不一样),可是依照目前的理论,这一问题还比较难以解决搜索命中率的问题。(并不倾向于认为弱玻璃光泽的弱是副词,此处可能更类似于 A-与 B+这种感觉。)


希望楼主能够理解 /谅解,并期待包括楼主在内的任何人能够提出更加完善的中文分词索引理论,包括句法分析理论。(其实现在句法分析已经有人在做了)


最后的最后:之前有一个段子:家事问百度,国事问谷歌,房事问天涯。百度什么的,搜搜娱乐八卦就好了,学术(包括技术)上的事儿想办法问谷歌去。
int64ago
2015-09-30 20:44:47 +08:00
@zjqzxc 百度被黑很多时候不是搜索,全家桶也占了很大比重。。所以,大家都破罐子破摔了,我很多时候也是不分青红皂白黑百度。不过偶尔有些小事,还是觉得百度某些方面确实努力了

比如,今天我打电话的时候找不到纸笔,就打开百度搜索框记一个订单号,然后百度不但区分出了只是快递单号,还知道是哪家快递

https://dn-getlink.qbox.me/qc0ybyl1eb3xr.png

当然,这并没啥技术含量,只是偶尔眼前一亮

最后,我还是百度一生黑 :-)
megabits
2015-09-30 20:59:16 +08:00
从来不信任搜索引擎的分词,提高 搜索 效率 的 重要 一点 就是自己 分词。
CYKun
2015-09-30 21:25:27 +08:00
@zjqzxc 补充一点,搜索引擎在分词的时候一般会使用全分词来提高命中率,比如“你好漂亮”一句,一个词典中带“好漂亮”这个词的分词器,用全分词模式会分成 你好 /你 /好 /好漂亮 /漂亮。不过这样会降低准确率,也是无奈。

不知道现在语义识别发展的怎么样了,能不能在搜索引擎上用到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/224861

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX