各位大佬们关于机器学习数据集中特征少

2019-10-10 08:47:21 +08:00

Liu6

数据集中只有一列 id 和 comment 然后 comment 全是中文这个怎么进行处理？？？加特征吗？那应该加什么特征呢？？？？第一次接触文本数据集

2593 次点击

所在节点

25 条回复

misaki321

2019-10-10 10:49:16 +08:00

svm 已经不适合这类题目了
用词向量+神经网络

Liu6

2019-10-10 11:11:36 +08:00

@misaki321 神经网络一开始有考虑但是我个人觉得最根本的原因是数据处理的不好我把中文进行了 label 编码了我觉得这个是主要原因我就一直不知道中文应该怎么处理

xwhxbg

2019-10-10 15:46:57 +08:00

bert 中文，把最后一层替换输出就行了，既不用分词也不用手动词向量，更不用手工提取特征

xwhxbg

2019-10-10 16:50:07 +08:00

首先震惊于这个比赛奖励居然是 100w，其次发现这是个训练赛，不知所以。。。
我用 bert 随便跑了一个 epoch，validation acc 0.91 看排行榜基本能进前 50 了。。。
https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg

Liu6

2019-10-10 16:57:19 +08:00

@xwhxbg 我没有接触过 Bert 今天下午也看了一下 Bert 但是有点懵!!

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

各位 大佬们 关于机器学习 数据集中特征少