[机器学习相关] 含有大量标签错误的数据如何建模？

想问问各位大佬，在二分类任务中，原始数据很多标签错误（假阳性超 90%），没法通过基于人工或者规则的方法清洗数据，有什么好的算法或者策略来识别出标签错误数据呢？发现这里没有 AI 算法相关节点，而大家都用 python ，我就发现这里吧。

thinkershare

2023-02-16 14:52:28 +08:00

没啥好办法，我也想要支持知道。

leimao

2023-02-16 14:56:00 +08:00

0/1 二元分类，标签错误 90%
那你 flip 一下标签，标签正确率不就是 90%了么

leimao

2023-02-16 15:00:44 +08:00

我仔细看了下，你说的是 false positive 90%，不好意思。

leimao

2023-02-16 15:03:19 +08:00

好多年前碰过这个 loss function 对 noisy label 比较 robust 。
https://arxiv.org/abs/1805.07836
这些年可能还有新的进展。

TongDu

2023-02-16 15:24:27 +08:00

@leimao 谢谢你分享的文献，我复现一下试试。我后面再看看被引文献，应该可以找到更多研究结果。我以前没接触过这个方向，看到过一个用于回归任务的 robust loss function ，https://arxiv.org/abs/1701.03077 。

king888

2023-02-16 15:57:12 +08:00

当然是使用超能力，据时代周刊报道说 openai 是找非洲人工打标签的，每小时 2 刀

thinkershare

2023-02-16 16:01:49 +08:00

@TongDu 大部分技术手段都没啥用，我之前研究过，你这个只需要二分类，可能简单点，可以考虑使用元学习 /小样本学习试一试。不过问题一旦稍微复杂了，感觉还是要使用人工打标签才靠谱。

ml1344677

2023-02-16 16:07:30 +08:00

没法很好解决这个问题几乎跟没标注一样了

qzwmjv

2023-02-16 16:11:11 +08:00

false positive 你是怎么知道的？

wangritian

2023-02-16 16:27:00 +08:00

如果你有办法判断原数据错误，那你根本不需要做这个项目了[狗头]

NoOneNoBody

2023-02-16 17:24:21 +08:00

机器学习节点 https://www.v2ex.com/go/ml
Torch https://www.v2ex.com/go/torch
Keras https://www.v2ex.com/go/keras
……

还是没搞清这个 90%是怎么来的，有对照数据？还是有其他参考标准？

jamosLi

2023-02-16 17:27:22 +08:00

先聚类，再分？

raycool

2023-02-16 17:57:27 +08:00

对于有监督学习，FP 这么高，任何算法都无效吧，还是想办法标注比较好。

INFP

2023-02-17 09:55:40 +08:00

@qzwmjv

对啊，没有“正确”的 label 你怎么算出来 false positive rate 的哈哈哈。

anyway ，对于这种情况不建议做任何形式的 imputation 去补 label ，因为这样不过是在错误上构建错误，或者是在已知中预测已知。

建议考虑 unsupervised learning ，或者 semi-supervised learning 。比如聚类，比如在有一部分确定正确的 label 的情况下用 semi-supervised SVM 去建模，可能会比只用“确定正确”的小部分数据的 test performance 好一些，也肯能不如。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/916660

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.