机器学习,怎么判断数据是否有学习的意义?

2019-12-06 05:35:34 +08:00
 shiji
假设数据大于一千条,参数 30 个左右。
简单试了 sklearn 的大部分 classifier 和 regression,准确率和随机猜答案没多少区别。。

是不是意味着这组数据确实挖掘不出什么价值?

数据是:
https://archive.ics.uci.edu/ml/machine-learning-databases/00503/
1453 次点击
所在节点    问与答
8 条回复
Xs0ul
2019-12-06 05:52:49 +08:00
Xs0ul
2019-12-06 05:56:19 +08:00
https://archive.ics.uci.edu/ml/datasets/Hepatitis+C+Virus+%28HCV%29+for+Egyptian+patients

手滑发出去了. 这个数据集应该是随着这篇论文发表的. abstract 里说达到了 99.48% 的 accuracy

刚开始尝试可能没法达到这么好的效果,但是 classification 和 regression 都没想好就试,不太合理吧
shiji
2019-12-06 07:41:00 +08:00
@Xs0ul 那个 paper 我看了,作者对比了自己的算法,和一些常见的算法。比如 OneR, 他 oneR 就已经有百分之九十五的准确率了。所以按理来说某一个 attribute 是和要预测的那一列强相关,然后 coefficient 跑出来,都很散,参数和参数之间关联性都很弱,所以我怀疑是这份上传的数据有问题。。才有了这么一问
shiji
2019-12-06 07:42:59 +08:00
RHxW
2019-12-06 09:06:41 +08:00
特征工程?
Xs0ul
2019-12-06 10:47:14 +08:00
@shiji #4 压缩包里的 Discretization-Criteria.csv 你试了吗?看起来有默认的一些离散化
shiji
2019-12-06 10:55:17 +08:00
@Xs0ul 试过了,原始数据,和离散化之后的我都试过了。
wysnylc
2019-12-06 14:12:33 +08:00
人肉智能,人肉

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/626377

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX