撸了一个 SAE 上的中文关键字提取服务,TF-IDF 算法

2014-08-31 07:13:44 +08:00
 akfish

使用的SAE的中文分词服务,关键字提取算法用的TF-IDF,语料库来自教育部的语料库在线。
SAE的中文分词服务只能从SAE访问,服务端需要部署在SAE上。
参数未细调,大概测试了下基本上靠谱,后面项目里用上了再调。

链接:
* Blog
* Demo
* GitHub - Seger Demo
* GitHub - Seger

6062 次点击
所在节点    分享创造
6 条回复
andybest
2014-08-31 07:32:26 +08:00
词库不太全,比如:中秋发福利:开发者专属定制 Coding 月饼!

中秋,专属 没有正确的分词
akfish
2014-08-31 07:43:20 +08:00
@andybest 显示的只是关键词,不是完整的分词。
SAE分词的词性分得太细了,权重还没细调,“中秋”词性为“时间专指”,显然我漏掉了。
ChanneW
2014-08-31 12:48:41 +08:00
部署在 SAE 上的程序把接口留出来不就哪里都能用了么
akfish
2014-08-31 14:54:53 +08:00
@ChanneW 就是这样搞的
dbbbit
2014-08-31 15:37:27 +08:00
@akfish
权重加的是否太暴力了。
动词,名词,形容词, 副词之外权重都为 0?
SAE 的分词确实好细,100+的词性
akfish
2014-08-31 16:05:51 +08:00
@dbbbit 看了几篇文献,权重基本上都是这么暴力,主要的考虑是其它词性的词大多是对内容没贡献的虚词、高频词,如果不过滤掉估计也得逐步加进停止词列表。
看到的文献里大多没有把词性分得像SAE这么细,所以其实名词、动词、形容词、副词基本上就能涵盖大部分有效内容了。
于是现在就要tweak那100+词性的权重,目前的实现肯定是漏了些,比如1L提到的时间专指词“中秋”。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/130878

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX