机器学习
回归模型评估
案例一:鸢尾花分类
机器学习的优化算法
交叉熵
lightGBM
处理非平衡数据集的方法
AdaBoost
GBDT
XGBoost
决策树
线性回归
pytorch 优化器的使用
分类模型评估
损失函数
前馈神经网络
特征工程
分箱
评分卡实现过程
逻辑回归
本文档使用 MrDoc 发布
-
+
首页
lightGBM
### 0. 介绍 `lightGBM`算法是对`XGBoost`算法的一种改进,主要有以下几个方面的优化: - 使用`直方图算法(Histogram)`减少特征的数据量(可以理解为分箱); - 使用`基于梯度的单边采样算法(GOSS)`来减少样本数量; - 使用`互斥特征捆绑算法(EFB)`来减少特征数量; 下面我们来分别介绍这几个算法。 ### 1. 直方图算法Histogram ### 2. 基于梯度的单边采样算法GOSS `GOSS(Gradient-based One-Side Sampling),基于梯度的单边采样`。单从名字上大概就能猜出该算法主要用来干啥,三个关键词:`梯度、单边、采样`。简单来说,就是根据样本梯度来对梯度小的这边样本进行采样,而对梯度大的这边样本全部保留。 > 比如,我有训练数据1000w,设置梯度大的样本的保留10%,而梯度小的样本保留20%。算法上就是先按样本梯度对样本降序排序,保留梯度处于前10%的样本(100w),再从剩下的900w梯度较小样本随机挑选200w(1000w*20%)样本。这样的话样本量就从1000w减小到了300w,加快训练速度。 如果样本的梯度很小,则该样本的训练误差也很小(gbdt拟合的就是负梯度),表明其是很好训练的,考虑性能的情况下可以对其丢弃。但为什么不全部丢弃而用采样的方法呢?主要还是因为会改变样本的分布情况,伤害模型的准确度。这里尽管会对梯度小的样本进行采样,但是会对采样的样本梯度乘以一个常数因子,将样本分布尽可能拉回来。例如对大梯度样本保留前 $$a\*100\\% $$,对小梯度样本采样$$b\*100\\% $$ ,则我们需要将小梯度样本的梯度放大$$\frac{1-a}{b}$$ 。 ### 3. 互斥特征捆绑算法EFB ### 参考 > [机器学习之LightGBM算法](https://www.cnblogs.com/hugechuanqi/p/10584602.html) > [详解LightGBM两大利器](https://zhuanlan.zhihu.com/p/366234433)
gaojian
2023年1月1日 19:32
分享文档
收藏文档
上一篇
下一篇
微信扫一扫
复制链接
手机扫一扫进行分享
复制链接
关于 MrDoc
觅思文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果觅思文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护觅思文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
Markdown文件
分享
链接
类型
密码
更新密码