[机器学习相关] 含有大量标签错误的数据如何建模?

2023-02-16 14:48:12 +08:00
 TongDu

想问问各位大佬,在二分类任务中,原始数据很多标签错误(假阳性超 90%),没法通过基于人工或者规则的方法清洗数据,有什么好的算法或者策略来识别出标签错误数据呢? 发现这里没有 AI 算法相关节点,而大家都用 python ,我就发现这里吧。

1895 次点击
所在节点    Python
14 条回复
thinkershare
2023-02-16 14:52:28 +08:00
没啥好办法,我也想要支持知道。
leimao
2023-02-16 14:56:00 +08:00
0/1 二元分类,标签错误 90%
那你 flip 一下标签,标签正确率不就是 90%了么
leimao
2023-02-16 15:00:44 +08:00
我仔细看了下,你说的是 false positive 90%,不好意思。
leimao
2023-02-16 15:03:19 +08:00
好多年前碰过这个 loss function 对 noisy label 比较 robust 。
https://arxiv.org/abs/1805.07836
这些年可能还有新的进展。
TongDu
2023-02-16 15:24:27 +08:00
@leimao 谢谢你分享的文献,我复现一下试试。我后面再看看被引文献,应该可以找到更多研究结果。我以前没接触过这个方向,看到过一个用于回归任务的 robust loss function ,https://arxiv.org/abs/1701.03077
king888
2023-02-16 15:57:12 +08:00
当然是使用超能力,据时代周刊报道说 openai 是找非洲人工打标签的,每小时 2 刀
thinkershare
2023-02-16 16:01:49 +08:00
@TongDu 大部分技术手段都没啥用,我之前研究过,你这个只需要二分类,可能简单点,可以考虑使用元学习 /小样本学习试一试。不过问题一旦稍微复杂了,感觉还是要使用人工打标签才靠谱。
ml1344677
2023-02-16 16:07:30 +08:00
没法很好解决 这个问题几乎跟没标注一样了
qzwmjv
2023-02-16 16:11:11 +08:00
false positive 你是怎么知道的?
wangritian
2023-02-16 16:27:00 +08:00
如果你有办法判断原数据错误,那你根本不需要做这个项目了[狗头]
NoOneNoBody
2023-02-16 17:24:21 +08:00
机器学习节点 https://www.v2ex.com/go/ml
Torch https://www.v2ex.com/go/torch
Keras https://www.v2ex.com/go/keras
……

还是没搞清这个 90%是怎么来的,有对照数据?还是有其他参考标准?
jamosLi
2023-02-16 17:27:22 +08:00
先聚类,再分?
raycool
2023-02-16 17:57:27 +08:00
对于有监督学习,FP 这么高,任何算法都无效吧,还是想办法标注比较好。
INFP
2023-02-17 09:55:40 +08:00
@qzwmjv

对啊,没有“正确”的 label 你怎么算出来 false positive rate 的哈哈哈。

anyway ,对于这种情况不建议做任何形式的 imputation 去补 label ,因为这样不过是在错误上构建错误,或者是在已知中预测已知。

建议考虑 unsupervised learning ,或者 semi-supervised learning 。比如聚类,比如在有一部分确定正确的 label 的情况下用 semi-supervised SVM 去建模,可能会比只用“确定正确”的小部分数据的 test performance 好一些,也肯能不如。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/916660

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX