这是一个创建于 2442 天前的主题,其中的信息可能已经有所发展或是发生改变。
以前一直用 TFIDF+SVM 做 baseline,效果尚可,不知可还有其他能做一个不错 baseline 的思路?
试了下 word embedding + bi-LSTM,结果却并没有什么提高…不晓得是不是参数的问题?
现有的训练数据大概 1000 个标签吧,每类七八百个样本,是不是数据量也太小了?
2 条回复 • 2017-07-22 10:15:46 +08:00
|
|
1
fffflyfish 2017-07-21 10:55:39 +08:00 via iPhone
Kaggle 有个 quora 相关的比赛,可以试试人家公布的方法
|
|
|
2
mpich 2017-07-22 10:15:46 +08:00
@ fffflyfish 哪个比赛? question pairs? 那不是找重复问题的吗。。。
|