如何通过分析一个论坛帖子内容来对帖子进行分类

2019-02-26 16:15:07 +08:00
 snappyone

大概需求是通过分析一个帖子的内容来对网页内容进行归类,因为之前没做过类似需求,

帖子的数据如下: [标题],[主贴内容],[每层楼的回复]

因为需要提取的分类不多本人也不懂机器学习这些,所以打算从标题,主贴和回帖的内容分别去做关键字的过滤,然后对每个部分设置不同权重,通过计算分值来确定帖子的归类。 还请各位能给点小意见,或者有什么成熟方法可以达到这样的目的

2051 次点击
所在节点    程序员
14 条回复
CEBBCAT
2019-02-26 16:29:24 +08:00
先说说分啥类吧……
snappyone
2019-02-26 16:35:31 +08:00
@CEBBCAT 就例如笔记本电脑、化妆品、找工作相关等
lixuda
2019-02-26 16:36:39 +08:00
我也有这个需求
mjawp
2019-02-26 16:37:28 +08:00
可以了解一下 svm,sklearn 库里面有现成的算法可以直接用的,不过你可能要稍微研究一下大概的原理。
也可以了解一下 fasttext,这个更简单,看完 readme 就能上手的了。
问题是你有没有已经标记好的数据集,就是有一大堆已经标记好属于什么分类的帖子。。
zycpp
2019-02-26 16:42:02 +08:00
训练数据量? 试试决策树?
mjawp
2019-02-26 16:46:40 +08:00
@mjawp 还有一个就是中文文本分类的话要做分词处理,也是有各种开源的库,jieba,hanlp 等等
snappyone
2019-02-26 17:01:06 +08:00
@mjawp 是的现阶段我们有的分类跟现在需求要分的类差距很大,所以可以说没有训练数据集的,只能先研究研究了
Libby520
2019-02-26 17:02:15 +08:00
tag
huhuhushan
2019-02-26 17:05:42 +08:00
没有数据的话,可以考虑一下 k-means 聚类算法,比较简单.
snappyone
2019-02-26 17:06:14 +08:00
@mjawp 对了再请问一个问题,如果我要整理数据集的话,训练集要多大才能出效果啊
mjawp
2019-02-26 17:31:45 +08:00
@snappyone 看你有多少类呀。感觉每个类别至少需要几千个样本吧。还有你可以考虑用一下词向量。
我有个思路,现在有很多分板块的论坛。。。。
Raymon111111
2019-02-26 17:34:18 +08:00
可以先到现有的一些大论坛爬点数据当样本训练
snappyone
2019-02-26 17:47:27 +08:00
@mjawp 是的,已经有一些类似的数据了,但是噪音很大,一个体育论坛有很多帖子其实是讨论乱七八糟东西的
a1528026364
2019-02-27 10:42:03 +08:00
参考下 V 站的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/538922

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX