V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
l890908
V2EX  ›  程序员

大家有没有比较好的分词 API 推荐

  •  
  •   l890908 · 2020-08-13 12:34:47 +08:00 · 4315 次点击
    这是一个创建于 1342 天前的主题,其中的信息可能已经有所发展或是发生改变。
    分词断句,比如——

    “我们希望 V2EX 能够成为中文世界中氛围最好的社区,而实现这个目标...”

    分词为——

    我们 希望 V2EX 能够 成为 中文 世界 中 氛围 最好 的 社区,而 实现 这个 目标 ...

    相对智能和稳定一点,付费也可,网上搜了一些前排的,感觉都有点缺陷。
    25 条回复    2020-08-14 19:18:00 +08:00
    dovme
        1
    dovme  
       2020-08-13 12:41:05 +08:00   ❤️ 1
    jieba 分词
    rabbull
        2
    rabbull  
       2020-08-13 13:00:29 +08:00   ❤️ 1
    `import jieba as jb`
    johnsona
        3
    johnsona  
       2020-08-13 13:04:53 +08:00   ❤️ 1
    boson 分词
    效果很好
    页面就可以体验,但限制次数
    不要用 ip 代理去撸,不要逼得别人要登录才可以体验
    huobazi
        4
    huobazi  
       2020-08-13 13:07:11 +08:00
    中国人都用 "结巴" O(∩_∩)O 哈哈~
    zhou00
        5
    zhou00  
       2020-08-13 13:14:12 +08:00
    jieba, 精确模式,得到的结果跟你要的结果一样
    marcong95
        6
    marcong95  
       2020-08-13 13:54:15 +08:00
    @jsisjs20130824 #3 搜了下这个 boson,搜到一个 BosonNLP.com 的网站,似乎已经停止对外开放还是怎么着,跳转到了阿里巴巴集团的登录页,用自己的淘宝账号似乎是登不进去,需要内部账号
    wangritian
        7
    wangritian  
       2020-08-13 14:03:20 +08:00
    jieba/hanlp
    johnsona
        8
    johnsona  
       2020-08-13 14:10:02 +08:00
    zcfnc
        9
    zcfnc  
       2020-08-13 14:12:08 +08:00
    我也是一直用的 jieba
    给楼主参考一下
    import jieba as jb
    result = jb.lcut("我们希望 V2EX 能够成为中文世界中氛围最好的社区,而实现这个目标..")
    print(result)

    ···['我们', '希望', ' ', 'V2EX', ' ', '能够', '成为', '中文', '世界', '中', '氛围', '最好', '的', '社区', ',', '而', '实现', '这个', '目标', '..']···
    KalaSearch
        10
    KalaSearch  
       2020-08-13 14:30:08 +08:00 via iPhone
    请问分词是在什么场景下用?看起来是为了提高搜索的召回率?

    如果是搜索的话,可以尝试下卡拉搜索,不用自己配置分词
    zxc12300123
        11
    zxc12300123  
       2020-08-13 14:33:27 +08:00
    bosonnlp, hanlp 都不错,jieba 真的很差。。
    KalaSearch
        12
    KalaSearch  
       2020-08-13 14:37:46 +08:00 via iPhone   ❤️ 1
    另外推荐下 pullword.com

    清华的师兄做的,口碑很好
    519718366
        13
    519718366  
       2020-08-13 14:49:24 +08:00
    借楼问下,java 版的 hanlp 能获取 同义词的 扩展不
    比如同义词:super,超级
    输入:super
    hanlp 分词处理后,我能获取到 super 以及它的同义词 超级
    l890908
        14
    l890908  
    OP
       2020-08-13 15:21:03 +08:00
    @jsisjs20130824 这个找了半天没找到注册获得 TOKEN 的地方?😂😂😂
    johnsona
        15
    johnsona  
       2020-08-13 16:34:10 +08:00
    @l890908 之前是登录,有后台生成,现在。。可能是 ai 泡沫破灭了,搞不下去了。
    johnsona
        16
    johnsona  
       2020-08-13 16:34:23 +08:00
    @l890908 自行联系网站管理员吧
    xiaoliu926
        17
    xiaoliu926  
       2020-08-13 16:51:18 +08:00
    我用的百度分词,50W 次免费
    laminux29
        18
    laminux29  
       2020-08-13 17:12:19 +08:00
    结巴分词有 2 个问题:

    1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。

    2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。
    netnr
        19
    netnr  
       2020-08-13 17:31:15 +08:00
    结巴 nodejs 版本

    https://api.zme.ink/analysis?content=结过婚的和尚未结过婚的
    linvaux
        20
    linvaux  
       2020-08-13 21:26:33 +08:00
    用 lucene 的 IK 分词器
    Merlini
        21
    Merlini  
       2020-08-13 22:38:02 +08:00
    既然是 nlp,还是要提百度的,推荐百度刚出的 lac 。
    https://github.com/baidu/lac
    Baboonowen
        22
    Baboonowen  
       2020-08-13 23:32:02 +08:00
    北大分词
    levelworm
        23
    levelworm  
       2020-08-14 07:32:15 +08:00 via Android
    @KalaSearch 梁哥做的对吧,微博上有关注
    encro
        24
    encro  
       2020-08-14 10:40:53 +08:00
    @laminux29

    结巴分词有 2 个问题:

    1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。

    2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。





    1,HMM 模式支持自动发现新词。

    2,运行过性能测评?那么结巴的c++,GO,Java 实现呢?
    mjikop1231
        25
    mjikop1231  
       2020-08-14 19:18:00 +08:00
    deepl 的分词,除了贵还好用
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   968 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 21:54 · PVG 05:54 · LAX 14:54 · JFK 17:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.