中文分词有哪些技术难点?另外,性能(每秒 xxx MB 文本)会是大家考虑的实际问题么?

2018-02-25 04:42:44 +08:00
 gowl

或者说,有哪家分词算法可以自信地说能做到无限接近 100 %正确?

3069 次点击
所在节点    问与答
22 条回复
nikoo
2018-02-25 05:51:39 +08:00
我买楼主要看心情
lsvih
2018-02-25 08:34:37 +08:00
中文没分隔符,有消岐、oov 等一堆难点

当然会考虑速度

现在还没有无限接近 100% 的
liuhaotian
2018-02-25 08:45:19 +08:00
@nikoo 你这句话我读了三遍才读明白😂
schoolers
2018-02-25 08:59:51 +08:00
@nikoo 你这句话我读了两遍才读明白😂
misaka19000
2018-02-25 09:19:43 +08:00
你这句话我读了三遍也没读明白
misaka19000
2018-02-25 09:20:31 +08:00
@nikoo 你这句话我读了三遍也没读明白😂
Baymaxbowen
2018-02-25 09:37:11 +08:00
北京大学你是分成一个词还是两个词?
nfroot
2018-02-25 09:54:19 +08:00
南京市长江大桥
murmur
2018-02-25 10:00:16 +08:00
中文分词的最大难点还是网络用语 尤其是带反和谐部分的
BingoXuan
2018-02-25 11:36:55 +08:00
@misaka19000
正确:我 买楼 主要 看 心情
错误:我 买 楼主 要 看 心情
所以说中文分析很做到正确
BingoXuan
2018-02-25 11:37:29 +08:00
@BingoXuan
分析 -> 分词
takato
2018-02-25 15:12:47 +08:00
为什么需要分词?
takato
2018-02-25 15:14:15 +08:00
从我的理解来看,如果要清晰做到理解语义。
则分词这个方法从架构上可能就是错误的。
因为分词要求词和词彻底分开,但词之间可能是以概率方式表示某种语义的。
gowl
2018-02-26 06:52:18 +08:00
@takato 内行~
gowl
2018-02-26 07:42:55 +08:00
@takato 我能模模糊糊地感知你的意思,但是不能完全领会,能不能举两个例子啊~
gowl
2018-02-26 07:45:52 +08:00
@Baymaxbowen 我觉得应该分一个词~
gowl
2018-02-26 07:48:19 +08:00
@murmur 感谢点拨
gowl
2018-02-26 07:49:49 +08:00
今天听一 个朋友说做分词最好的机构似乎是一家台湾的机构
takato
2018-02-26 09:50:22 +08:00
@gowl 举个例子,鱼,鱼子,鱼子酱。三者是不同的东西,但又不是完全无关的东西。现有的分词逻辑中,相当于是将不同的词作为了独立元素。你会注意到是否将鱼子酱作为一个词,其实是一件很头疼的事情。。。
这是因为语义的联系在 字 的层面上就已经存在了,而词的本质是字的排列组合。

比如:

鱼对于鱼子的意思,是有贡献的。
而鱼子对于鱼子酱的意思,也是有贡献的。

所有的字的组合构成了最完整的词的含义。

所以用 字 构成了基本元素的模型可能会比词保留更完整的语义信息。
takato
2018-02-26 09:51:37 +08:00
@gowl 这也是为什么有人会弄出词向量这种东西。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/432389

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX