大家有什么推荐 [提取关键词] 的开源吗?

2015-10-27 16:21:51 +08:00
 dai269619118

今天试了下 jieba 和 snownlp
jieba 使用自定义词典 权重不好控制
snownlp 貌似不支持自定义词典 需要自己训练文本


搜下了论坛里面的帖子 看到 @Livid 用的是 jieba 后面好像换了?
换的是什么工具 能说下吗?
大家推荐几个 我自己再去试试 找到个我自己合适的

2917 次点击
所在节点    程序员
10 条回复
pandachow
2015-10-27 16:36:12 +08:00
LDA?
jimmyBrother
2015-10-27 16:42:35 +08:00
你怎么定义关键词啊,是出现的次数比较多就算关键词么,还是有别的什么定义的方法;
dai269619118
2015-10-27 16:44:38 +08:00
@jimmyBrother 匹配到词典里面的词 然后按权重排序
shoumu
2015-10-27 16:47:11 +08:00
自己写一个 TF-IDF 吧,然后根据你的训练数据跑一个 IDF ,再根据你的效果调一下参数什么的就好了
dai269619118
2015-10-27 16:51:15 +08:00
@shoumu 嗯嗯 文本匹配字典 有什么算法吗?
shoumu
2015-10-27 16:55:55 +08:00
@dai269619118
Hash ? Trie 树?
你是想直接从字典中匹配出关键词吗?
dai269619118
2015-10-27 17:01:27 +08:00
@shoumu 有思路了 谢谢啊
iewgnaw
2015-10-27 18:55:29 +08:00
Gestalt
2015-10-28 08:57:26 +08:00
V2EX 帖子的关键词提取目前是用我司的 API http://bosonnlp.com/ 之前在这个帖子里有提到: http://v2ex.com/t/147911#reply32
dai269619118
2015-10-28 09:17:11 +08:00
@Gestalt 测试了一个文本 分析的很准! 谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/231479

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX