一个纯 PHP 的分词

2017-12-27 11:54:42 +08:00
 tanszhe

VicWord 一个纯 php 的分词

(顺便安利一下:本人从帝都回来,打算找个兼职 。如果你们正好缺个前端 或者 php 后端 不妨联系我。微信:dongxi828 )

star 地址 https://github.com/lizhichao/VicWord

分词说明

$fc = new VicWord('igb');
$arr = $fc->getWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京大学|生喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒
//$arr 是一个数组 每个单元的结构[词语,词语位置,词性,这个词语是否包含在词典中] 这里只值列出了词语

$arr =  $fc->getShortWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学|生喝|进口|红酒|,|在|北京|大学|生活|区喝|进口|红酒

$arr = $fc->getAutoWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学生|喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒

//准确度对比
//q 的分词和百度的分 http://nlp.qq.com/semantic.cgi#page2 http://ai.baidu.com/tech/nlp/lexical

分词速度

机器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord 每秒 140w 字
getShortWord 每秒 138w 字
getAutoWord 每秒 40w 字
测试文本在百度百科拷贝的一段 5000 字的文本

制作词库

demo

demo

5874 次点击
所在节点    分享创造
39 条回复
dishuibaby
2017-12-27 12:44:58 +08:00
mark 一下
server
2017-12-27 12:57:28 +08:00
1024,😀
qianmeng
2017-12-27 13:01:13 +08:00
这个很厉害啊
eseeker
2017-12-27 13:03:04 +08:00
好东西要赞一个。谢谢分享!
gdtv
2017-12-27 13:12:42 +08:00
感谢,正好需要
gdtv
2017-12-27 13:15:17 +08:00
试了一下
广东省广州市解放路 24 号越秀公园
结果:
广东省,广州市,解放,路 24 号越秀,公园

感谢楼主,正好可以用到我现在的项目里。
assad
2017-12-27 13:15:36 +08:00
赞一个
gdtv
2017-12-27 13:18:33 +08:00
能否区分词性,例如“的、地、得”是助词,“红酒”是名词
tanszhe
2017-12-27 14:11:21 +08:00
@gdtv 补充在词库就能支持了 目前的词库没有词性
babytomas
2017-12-27 14:14:18 +08:00
可以配合你这个做本地翻译引擎耶。
predator
2017-12-27 14:16:42 +08:00
棒棒哒非常好
ORZRRR
2017-12-27 14:17:21 +08:00
支持下,这玩意核心在词典,希望大家可以开源一起维护完善词典?已经人工给一个星星
LeungJZ
2017-12-27 15:05:13 +08:00
支持支持。已 star。
kn007
2017-12-27 15:07:53 +08:00
nice,支持
x86
2017-12-27 15:12:59 +08:00
好东西
Sornets
2017-12-27 15:43:55 +08:00
厉害了,star+1
lyz745704689
2017-12-27 16:20:03 +08:00
有一个个人项目,目前安卓已经上架,ios 在开发中,不知道楼主有兴趣没有,已经加您微信了
rebill
2017-12-27 16:23:51 +08:00
看来切词的准确性在于词典
pkm
2017-12-27 16:37:07 +08:00
结婚|的|和尚|未结婚的
pkm
2017-12-27 16:40:36 +08:00
楼主棒棒哒,细粒度挺准确的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/417970

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX