机器学习
回归模型评估
案例一:鸢尾花分类
机器学习的优化算法
交叉熵
lightGBM
处理非平衡数据集的方法
AdaBoost
GBDT
XGBoost
决策树
线性回归
pytorch 优化器的使用
分类模型评估
损失函数
前馈神经网络
特征工程
分箱
评分卡实现过程
逻辑回归
本文档使用 MrDoc 发布
-
+
首页
处理非平衡数据集的方法
### 下采样(欠采样) 在机器学习中,当原始数据的分类极不平衡,需要对不平衡的数据进行处理,下采样就是处理方法之一。 `下采样(under-sampling)`,也称为`欠采样`或`抽样`,简单来说就是从多数类中抽取一定数量的样本,减少多数类样本的数量,从而使数据达到平衡。 下采样常见的方法有如下几种 1. `随机下采样` > 随机下采样做法很简单,从多数类样本中随机选取一些样本,其他的都剔除掉。 这种做法的缺点是,被剔除的样本可能包含重要信息,导致最终学习的模型效果较差。 2. `EasyEnsemble` > 将多数类样本随机划分为n个子集,每个子集的样本数等于少数类样本的数量,然后将每个子集与少数类样本分别一起训练,得到n个模型,最后将所有模型进行集成 该方法使用了模型融合的方法,虽然每个子集的样本数量少于总体样本,但是集成后总信息量并不少。 该方法算是一个无监督的方法。 3. `BalanceCascade` > 将从多数类样本集$$A$$中随机采样得到子集$$A_1$$与少数类样本$$B$$一起训练一个基学习器$$H$$,训练完后子集$$A_1$$中能被正确分类的样本会被剔除,其他样本放回到样本集$$A$$中。下一轮训练中,继续从$$A$$中随机采样得到新的子集$$A_1$$与样本集$$B$$训练,又会得到一个新的模型,最后将这些模型进行集成。 可以看到,该方法采用了有监督的方式,并结合使用了boosting方法. 这个方法跟`EasyEnsemble` 很像,`EasyEnsemble`算是`无放回`的抽样训练,`BalanceCascade`算是`有放回`的抽样训练。 > boosting方法是一种提高弱分类器精度的方法,它通过构造一系列弱分类器然后将这些分类器集成,从而获得较好的分类准确性 4. `NearMiss` > NearMiss使用一些启发式的规则,从多数类样本中选取最具代表性的样本用于训练,主要是为了缓解随机采样的信息丢失问题 NearMiss 选取多数类样本的规则如下: ``` NearMiss-1:选择到最近的K个少数类样本平均距离最近的多数类样本 NearMiss-2:选择到最远的K个少数类样本平均距离最近的多数类样本 NearMiss-3:对于每个少数类样本选择K个最近的多数类样本,目的是保证每个少数类样本都被多数类样本包围 ``` ### 过采样 `过采样(oversampling)`,就是想方设法人为制造一些少数类的样本,使得数据平衡 ### 参考 > [不平衡数据处理常用方法--下采样](https://www.cda.cn/bigdata/27858.html) > [机器学习-下采样](https://blog.csdn.net/weixin_44451032/article/details/99974665) > [机器学习:处理非平衡数据集的办法](https://www.cnblogs.com/szqfreiburger/p/11664745.html)
gaojian
2022年12月30日 09:43
分享文档
收藏文档
上一篇
下一篇
微信扫一扫
复制链接
手机扫一扫进行分享
复制链接
关于 MrDoc
觅思文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果觅思文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护觅思文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
Markdown文件
分享
链接
类型
密码
更新密码