想问问各位大佬,在二分类任务中,原始数据很多标签错误(假阳性超 90%),没法通过基于人工或者规则的方法清洗数据,有什么好的算法或者策略来识别出标签错误数据呢? 发现这里没有 AI 算法相关节点,而大家都用 python ,我就发现这里吧。
1
thinkershare 2023-02-16 14:52:28 +08:00
没啥好办法,我也想要支持知道。
|
2
leimao 2023-02-16 14:56:00 +08:00
0/1 二元分类,标签错误 90%
那你 flip 一下标签,标签正确率不就是 90%了么 |
3
leimao 2023-02-16 15:00:44 +08:00
我仔细看了下,你说的是 false positive 90%,不好意思。
|
4
leimao 2023-02-16 15:03:19 +08:00
|
5
TongDu OP @leimao 谢谢你分享的文献,我复现一下试试。我后面再看看被引文献,应该可以找到更多研究结果。我以前没接触过这个方向,看到过一个用于回归任务的 robust loss function ,https://arxiv.org/abs/1701.03077 。
|
6
king888 2023-02-16 15:57:12 +08:00
当然是使用超能力,据时代周刊报道说 openai 是找非洲人工打标签的,每小时 2 刀
|
7
thinkershare 2023-02-16 16:01:49 +08:00
@TongDu 大部分技术手段都没啥用,我之前研究过,你这个只需要二分类,可能简单点,可以考虑使用元学习 /小样本学习试一试。不过问题一旦稍微复杂了,感觉还是要使用人工打标签才靠谱。
|
8
ml1344677 2023-02-16 16:07:30 +08:00
没法很好解决 这个问题几乎跟没标注一样了
|
9
qzwmjv 2023-02-16 16:11:11 +08:00
false positive 你是怎么知道的?
|
10
wangritian 2023-02-16 16:27:00 +08:00
如果你有办法判断原数据错误,那你根本不需要做这个项目了[狗头]
|
11
NoOneNoBody 2023-02-16 17:24:21 +08:00
机器学习节点 https://www.v2ex.com/go/ml
Torch https://www.v2ex.com/go/torch Keras https://www.v2ex.com/go/keras …… 还是没搞清这个 90%是怎么来的,有对照数据?还是有其他参考标准? |
12
jamosLi 2023-02-16 17:27:22 +08:00
先聚类,再分?
|
13
raycool 2023-02-16 17:57:27 +08:00
对于有监督学习,FP 这么高,任何算法都无效吧,还是想办法标注比较好。
|
14
INFP 2023-02-17 09:55:40 +08:00
@qzwmjv
对啊,没有“正确”的 label 你怎么算出来 false positive rate 的哈哈哈。 anyway ,对于这种情况不建议做任何形式的 imputation 去补 label ,因为这样不过是在错误上构建错误,或者是在已知中预测已知。 建议考虑 unsupervised learning ,或者 semi-supervised learning 。比如聚类,比如在有一部分确定正确的 label 的情况下用 semi-supervised SVM 去建模,可能会比只用“确定正确”的小部分数据的 test performance 好一些,也肯能不如。 |