V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dzdh
V2EX  ›  PostgreSQL

有没有什么正在更新的词库可以给 jieba 或 zhparser 用的

 •  
 •   dzdh · 202 天前 · 889 次点击
  这是一个创建于 202 天前的主题,其中的信息可能已经有所发展或是发生改变。

  ps : 这俩还在更新吗..

  pg 的中文分词需求感觉蛮大的啊。哪里有好的社区可以求指导咩

  5 条回复    2021-06-29 15:14:24 +08:00
  ptsa
      1
  ptsa  
     202 天前
  更新不频繁。 应该都能用
  dzdh
      2
  dzdh  
  OP
     202 天前
  @ptsa 有没有啥好的分词词库啊。

  搜狗细胞词库转 txt ?
  MinQ
      3
  MinQ  
     202 天前
  https://ai.tencent.com/ailab/nlp/en/embedding.html
  可以把这里面的词抽出来作为词典,质量还是很高的
  dzdh
      4
  dzdh  
  OP
     201 天前
  @MinQ
  木有找到现成的库 需要自己 clone 源码自己训练么
  MinQ
      5
  MinQ  
     201 天前
  @dzdh 不需要,下载下来是一个训练好的文件,里面是词+对应的词向量的形式
  读到内存里(可能需要至少 16G 以上的内存),然后把词库提取出来给 jieba 用
  https://www.biaodianfu.com/tencent-word-embedding.html
  关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4584 人在线   最高记录 5497   ·     Select Language
  创意工作者们的社区
  World is powered by solitude
  VERSION: 3.9.8.5 · 23ms · UTC 06:25 · PVG 14:25 · LAX 22:25 · JFK 01:25
  ♥ Do have faith in what you're doing.