请教下短文本标签分类有什么比较好的办法

2017-07-21 10:45:54 +08:00
 mpich
以前一直用 TFIDF+SVM 做 baseline,效果尚可,不知可还有其他能做一个不错 baseline 的思路?
试了下 word embedding + bi-LSTM,结果却并没有什么提高…不晓得是不是参数的问题?

现有的训练数据大概 1000 个标签吧,每类七八百个样本,是不是数据量也太小了?
1394 次点击
所在节点    Python
2 条回复
fffflyfish
2017-07-21 10:55:39 +08:00
Kaggle 有个 quora 相关的比赛,可以试试人家公布的方法
mpich
2017-07-22 10:15:46 +08:00
@fffflyfish 哪个比赛? question pairs? 那不是找重复问题的吗。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/376909

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX