有没有什么正在更新的词库可以给 jieba 或 zhparser 用的

2021-06-28 22:32:39 +08:00
 dzdh

ps : 这俩还在更新吗..

pg 的中文分词需求感觉蛮大的啊。哪里有好的社区可以求指导咩

1608 次点击
所在节点    PostgreSQL
5 条回复
ptsa
2021-06-28 23:26:31 +08:00
更新不频繁。 应该都能用
dzdh
2021-06-29 09:14:23 +08:00
@ptsa 有没有啥好的分词词库啊。

搜狗细胞词库转 txt ?
MinQ
2021-06-29 10:38:56 +08:00
https://ai.tencent.com/ailab/nlp/en/embedding.html
可以把这里面的词抽出来作为词典,质量还是很高的
dzdh
2021-06-29 14:58:45 +08:00
@MinQ
木有找到现成的库 需要自己 clone 源码自己训练么
MinQ
2021-06-29 15:14:24 +08:00
@dzdh 不需要,下载下来是一个训练好的文件,里面是词+对应的词向量的形式
读到内存里(可能需要至少 16G 以上的内存),然后把词库提取出来给 jieba 用
https://www.biaodianfu.com/tencent-word-embedding.html

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/786342

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX