有这样一个文章分类的需求,大家有没有好的解决方案

2018-12-03 15:14:02 +08:00
 976683240

数据库中有 10w 条没有分类的文章,含有标题,内容(文本),创建时间等等字段

现在需要将这 10w 数据分到政策,行情,军事等等 7 个分类下

有没有好的解决方案

1288 次点击
所在节点    问与答
6 条回复
maemolee
2018-12-03 17:10:01 +08:00
对七个分类预设一批关键词,去匹配?我瞎说的,抛砖引玉。
xiaoxinshiwo
2018-12-03 17:21:19 +08:00
分表
或者 es
gsscsd
2018-12-03 17:23:45 +08:00
tfidf+机器学习多分类或者词向量+深度学习多分类
banks0913
2018-12-03 17:24:34 +08:00
scikit-learn,利用朴素贝叶斯分类器训练模型
to
2018-12-03 18:01:05 +08:00
小批量训练个模型就好了
yangzhezjgs
2018-12-03 22:59:11 +08:00
文本分类了解一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/513834

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX