各位 大佬们 关于机器学习 数据集中特征少

2019-10-10 08:47:21 +08:00
 Liu6
数据集中 只有一列 id 和 comment 然后 comment 全是中文 这个怎么进行处理??? 加特征吗 ? 那应该加什么特征呢???? 第一次接触文本数据集
1986 次点击
所在节点    问与答
25 条回复
misaki321
2019-10-10 10:49:16 +08:00
svm 已经不适合这类题目了
用词向量+神经网络
Liu6
2019-10-10 11:11:36 +08:00
@misaki321 神经网络一开始有考虑 但是 我 个人觉得 最根本的原因是 数据处理的不好 我把中文 进行了 label 编码 了 我觉得这个是主要原因 我就一直不知道 中文 应该怎么处理
xwhxbg
2019-10-10 15:46:57 +08:00
bert 中文,把最后一层替换输出就行了,既不用分词也不用手动词向量,更不用手工提取特征
xwhxbg
2019-10-10 16:50:07 +08:00
首先震惊于这个比赛奖励居然是 100w,其次发现这是个训练赛,不知所以。。。
我用 bert 随便跑了一个 epoch,validation acc 0.91 看排行榜基本能进前 50 了。。。
https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg
Liu6
2019-10-10 16:57:19 +08:00
@xwhxbg 我没有接触过 Bert 今天下午 也看了一下 Bert 但是 有点懵!!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/607698

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX