[伸手党] 有没有开源的中文分句项目, cpp or Python

2019-02-01 16:06:47 +08:00
 a41050447
就是把篇章分成句子,可自定规则最好
4576 次点击
所在节点    程序员
8 条回复
neosfung
2019-02-01 17:02:54 +08:00
Sanko
2019-02-01 17:05:30 +08:00
jieba
xemtof
2019-02-01 17:06:12 +08:00
@Sanko 结巴是分词的,没有分句吧。
neptuno
2019-02-01 17:38:21 +08:00
分句?标点符号,换行符分一分?感觉这种东西自己写写比较好,重点是分词吧
inhzus
2019-02-01 17:41:33 +08:00
正好可能以后用到, 稍微写了写

使用的第三方库 [HanLP]( https://github.com/hankcs/HanLP)

代码:
https://gist.github.com/imagecser/ea03d286838fb9afe7e20fba46c4ecd2

结果:


如果非要用 python 的话, 参考一下 pyhanlp 就好了
a41050447
2019-02-01 17:48:03 +08:00
@neptuno 主要是要考虑各种规则,括号,引号,双标点,小数点,url 这些,还可能是中英混合的文档,造轮子太废时,
neptuno
2019-02-01 19:16:21 +08:00
@a41050447 恩,你可以试试先分词再分句试试,主要是你要自定规则,有些轮子以后坑更大
yuikns
2019-02-02 07:24:03 +08:00
通常是做词法分析,然后得到完整的结构即可吧?

两个推荐看看的包:

http://thulac.thunlp.org/

https://stanfordnlp.github.io/CoreNLP/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/532472

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX