样本不均衡问题调研
● 每周一言
本真思考,不汲汲以求。
导语
在有监督模型训练中,多多少少都会遇到样本不均衡(Imbalanced Data)的问题,样本不均衡将导致模型学习不到想学到的知识。
比如癌症预测模型,相比健康人而言,癌症病人的数量本来就很少,数据不平衡的问题很大,这样就限制了模型的预测能力。那么,如何解决样本的不均衡问题?
样本不均衡
简而言之,样本不均衡就是不同类别标签的样本之间的数量差别较大。由于多分类问题可以转化为多个二分类问题,因此本文重点讨论二分类样本不均衡问题的解决方法。
常见的样本不均衡处理方法有三种:采样、样本合成和loss加权。
采样 采样是指对训练样本的取样,又分为上采样(Oversampling)和下采样(Undersampling)两种。上采样是从样本较少的类别中多次重复取样,下采样则是从样本较多的类别中部分取样。本质上,两种采样方法的目的都是从数据集层面使各个类别的样本比例趋于平衡。
样本合成 样本合成最常见的方法是SMOTE(Synthetic Minority Oversampling Technique)。样本合成也是一种从数据集层面解决不均衡问题的方法。
loss加权 样本不均衡直接导致的结果是在计算loss的时候,样本较多的类别由于参与计算loss的贡献较多,导致预测能力失准。因此我们可以换一个角度,增加样本较少类别数据loss计算的权重。这个方法的难点在于需要手动设置合理的权重。
调研近几年关于样本不均衡问题的文献,推荐一篇发表于今年一月份的survey:Handling Imbalanced Data: A Survey,这篇paper从四个方面总结了最近几年比较新的imbalanced Data应对办法,下面作一下简单介绍。
1、Data-Level Approaches,数据层面的方法:
[Majority weighted minority oversampling technique],多数样本类加权的过采样方法。(http://www.cs.bham.ac.uk/~xin/papers/tkde2012_IslamYao.pdf)
Neighbourhood-balanced bagging
Radial Basis Function Networks
Inverse random undersampling technique
2、Algorithm-Level Approaches,算法层面的方法,讲了一些基于SVM和cluster的处理方法。
3、Ensemble and Hybrid Methods,融合方法:
bagging-based ensemble method,这个方法大概意思是把不均衡的二分类数据集拆分成多个均衡的二分类数据集,然后训练多个分类器,最后通过最大距离选择最优分类器。
Hybrid method (MBP+GGE),处理多分类样本不均衡的问题。
4、Other Different Techniques,主要提到了一些feature selection的方法。
density-based feature selection
对Imbalanced Data感兴趣的朋友可以自行查阅上述涉及的文献。
另外,生成对抗网络(Generative Adversarial Networks)自2014年问世以来,已经运用到了解决数据不均衡的问题上。以下两篇文献对GAN进行了改进(G生成模型将类标签信息纳入考虑),用以解决数据不均衡问题,感兴趣的读者可自行下载。
Using generative adversarial networks for improving classification effectiveness in credit card fraud detection
A Deep Learning Based Method for Handling Imbalanced Problem in Network Traffic Classification
以上便是样本不均衡问题的讲解,敬请期待下节内容。
结语
感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白!