stanford 词性标注 性能慢

2017-11-29 17:52:59 +08:00
 zbl430

代码如下

#! /usr/bin/env python
# -*- coding: utf-8 -*-

"""
 *
"""
import sys
import time
from nltk.tag import StanfordPOSTagger

reload(sys)
sys.setdefaultencoding('utf-8')

model_filename = "./data/modles/pos.tagger"
path_to_jar = "./stanford-postagger.jar"
Tagger = StanfordPOSTagger(model_filename=model_filename, path_to_jar=path_to_jar)

if __name__ == "__main__":
    st = time.time()
    print Tagger.tag([u"你的", u"百度", u"打人"]), time.time()-st
    print Tagger.tag([u"你的", u"百度", u"打人"]), time.time()-st
    print Tagger.tag([u"你的", u"百度", u"打人"]), time.time()-st

输出:

[(u'\u4f60\u7684', u'nz'), (u'\u767e\u5ea6', u'nz'), (u'\u6253\u4eba', u'v')] 5.10674095154 s
[(u'\u4f60\u7684', u'nz'), (u'\u767e\u5ea6', u'nz'), (u'\u6253\u4eba', u'v')] 10.2533240318 s
[(u'\u4f60\u7684', u'nz'), (u'\u767e\u5ea6', u'nz'), (u'\u6253\u4eba', u'v')] 16.8123478889 s

速度竟然如此慢,请大佬赐教,是我打开方式不对还是怎么??

1587 次点击
所在节点    Python
2 条回复
holajamc
2017-11-29 18:33:04 +08:00
既然已经用了 stanford 不如直接用 hankcs
knightdf
2017-11-29 22:42:16 +08:00
别用 python 调了,好像每次起一个 jvm 做的,当然慢了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/410587

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX