手里有 1 亿多关键词,怎么做分类呢?

2014-10-24 15:06:39 +08:00
 llhh
既想分成行业大类,也想分小类。

目前只能分词,找词根,简单分类。

或者用word2vec做简单的聚类,但因为语料不够,结果不太好,并且这个聚类应该是小类。

这一亿词是关键词+百度搜索量的格式。

谢谢各位!
3020 次点击
所在节点    问与答
24 条回复
xiaojj
2014-10-24 15:12:24 +08:00
楼主能分享一下吗
llhh
2014-10-24 15:18:49 +08:00
@xiaojj 最起码说下思路嘛,上来直接要数据不好吧,起码有个搞基的过程。。。
happywowwow
2014-10-24 15:20:18 +08:00
按拼音字母分。 做个词典。
哈哈哈
llhh
2014-10-24 15:24:04 +08:00
@happywowwow 哈哈哈
twor2
2014-10-24 15:25:03 +08:00
@llhh 见1L名字和你的回复 笑尿了
nonozone
2014-10-24 15:27:22 +08:00
笑昏...
lihuoqingfly
2014-10-24 15:29:12 +08:00
在一起 生一堆
llhh
2014-10-24 15:32:17 +08:00
@twor2
@nonozone
@lihuoqingfly
同学们,看黑板,出出主意吧。
运营狗才疏学浅实在是有心无力了。
em70
2014-10-24 15:40:00 +08:00
单纯关键词要分类,又没有语料库支持,怎么可能.

先拿各个行业的文章做语料库,然后用关键词去碰撞吧,根据碰撞结果再归类
llhh
2014-10-24 15:46:06 +08:00
@em70 语料好难找
xunyu
2014-10-24 15:49:23 +08:00
关键词只能分字典吧,分类要语聊足够
CrowQu
2014-10-24 15:57:40 +08:00
1亿行业相关的关键词?
可以尝试寻找关键词相关的企业资料,然后再归类。
首先肯定要找到关键词之间的线索。
pubby
2014-10-24 16:04:43 +08:00
@llhh 额,去百度搜一亿次就有十亿份语料了
wangfengmadking
2014-10-24 16:10:37 +08:00
用每一个词条作为搜索关键字,用baidu,google,bing等搜出前10条(后者50)结果作为关联的预料,后面就条条大路通罗马了
llhh
2014-10-24 16:17:02 +08:00
@pubby
@wangfengmadking
看来也只能这样了。
一想起来抓搜索引擎我就吓尿了,不是个小工程啊。
可以先提取词根试试。
em70
2014-10-24 16:25:46 +08:00
@llhh 语料不难啊,百度文库就很多嘛,而且都分类好的,能花钱买论文库更好
xiaojj
2014-10-24 22:49:39 +08:00
@llhh 乔大哥我错了
llhh
2014-11-06 19:24:14 +08:00
@xiaojj
@happywowwow
@twor2
@lihuoqingfly
@em70
@xunyu
@CrowQu
@pubby
@wangfengmadking
@em70
100G百科语料。
链接: http://pan.baidu.com/s/1sjQAavj 密码: 1uj1
大家在关键词相关性、推荐标签、网站架构方面有哪些资料推荐呢?
xunyu
2014-11-07 09:51:19 +08:00
相关性去年出了个word2vec,最简单就是tf-idf,标签的话没有办法,手动打吧
@llhh
llhh
2014-11-07 10:01:59 +08:00
@xunyu 已经搞wordvec了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/141258

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX