请教一个结巴分词的问题。。

2014-05-28 17:00:48 +08:00
 a591826944
我看到v2ex上的是用结巴分词提取的标签。。我也想给我的网站用。我的时PHP做的。
首先我clone了结巴分词。使用了他 提取标签 的demo程序,在命令行下运行。配置词库等。都是默认的,就是 extract_tags.py 这个demo。

一句话,20字左右,提取两个关键词。我发现。在命令行下直接运行这个demo程序,第一次运行 4秒+ 第二次运行 因为词库缓存 1.6s左右。。。时间是结巴自己统计的。

loading model from cache /tmp/jieba.cache
loading model cost 1.6911380291 seconds.
Trie has been built succesfully.
[u'\u9910\u5385', u'\u597d\u5403']

我想请问。。这个时间 好像 挺慢的把。。v2 也是 这么慢 调用的吗??
当然 我的是阿里云,配置是 1核 1G 内存

关于PHP调用结巴分词。。我现在在做 写python http服务,监听端口,跟php来交互返回给我关键词的结果。大家还有什么别的更好的方式么?

关于结巴分词。。还需要优化之类的么?暂时我只需要 提取关键词功能,是不是直接用demo改写就好了?@livid

问题稍多 有点乱,,感谢认真看完和所有回答的同学
8886 次点击
所在节点    Python
27 条回复
alexapollo
2014-05-28 23:49:55 +08:00
结巴是使用时加载,说实话我不觉得很好
decken
2014-05-29 00:15:41 +08:00
@Livid 原来是内测,不好意思误会了。期待中…
ShakeChan
2014-09-17 16:04:19 +08:00
@Livid 目前该厂的词库开始推广了吗?
fxsjy
2014-10-27 12:46:22 +08:00
试用下jieba最新版0.34吧,内存占用已经下降到原来的1/3,加载速度0.6秒左右。
sangxiaolong
2014-11-18 23:49:27 +08:00
@Livid 现在v2ex的自动tag功能比以前好很多了,请问现在用的什么工具呢,能分享一下么?谢谢
decken
2014-11-26 14:25:35 +08:00
@fxsjy 确实是 感谢
v9ex
2017-09-29 18:24:05 +08:00
@Livid 新的分词服务是否可以问下具体名称?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/114729

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX