机器学习
回归模型评估
案例一:鸢尾花分类
机器学习的优化算法
交叉熵
lightGBM
处理非平衡数据集的方法
AdaBoost
GBDT
XGBoost
决策树
线性回归
pytorch 优化器的使用
分类模型评估
损失函数
前馈神经网络
特征工程
分箱
评分卡实现过程
逻辑回归
本文档使用 MrDoc 发布
-
+
首页
特征工程
### 1. 二值化 ### 2. 分箱 ### 3. 对数变换 > 通过对数函数`log(x)`对特征进行变换 对数函数的特点: ``` 可以将(0,1)区间上的数值映射到(-∞,0); 对[1, 10]区间上的数值映射到[0, 1]; 对[10, 100]区间上的数值映射到[1, 10]; ``` 因此我们可以知道: > 对数函数可以对小数值的范围进行扩展,对大数值的范围进行压缩 对于具有长尾分布的正数值的处理,对数变换是一个非常强大有效的工具。 ### 4. 指数变换 ### 5. 特征缩放 特征缩放主要有`归一化`和`标准化`。 >在机器学习领域,不同评价指标(也就是特征)往往具有不同的量纲和量纲单位,这样的情况会影响数据分析的结果,为了消除指标之间量纲的影响,需要对数据进行缩放处理,以解决数据之间的可比性问题。原始数据经过缩放之后,各指标处在同一数量级,适合进行综合对比评价。 > 在很多文章中,归一化和标准化常被混用。一般我们认为: > - `归一化`指的是将特征值限定在一定的范围内,一般是[0, 1]或者[-1, 1]; > - `标准化`指的是处理后特征的均值为0方差为1; 归一化的目的是使得特征数据被限定在一定的范围内,一般是[0, 1]或者[-1, 1]。 1. `min-max 归一化` 该方法可以将特征值压缩到[0, 1]区间上 ```latex x = \frac{x-min(x)}{max(x)-min(x)} ``` 2. `z-score 标准化` 该方法的公式定义为:特征值减去均值`μ`再除以标准差`σ` ```latex x = \frac{x-\mu}{\sigma} ``` 处理后的特征值均值为0,方差为1。 注意,本方法要求原始数据的分布近似高斯分布,否则处理后的效果不好。 3. L2范数归一化 略 ### 参考 > 精通特征工程 > [标准化/归一化的目的、作用和场景](https://blog.csdn.net/zenghaitao0128/article/details/78361038)
gaojian
2022年11月6日 11:30
分享文档
收藏文档
上一篇
下一篇
微信扫一扫
复制链接
手机扫一扫进行分享
复制链接
关于 MrDoc
觅思文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果觅思文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护觅思文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
Markdown文件
分享
链接
类型
密码
更新密码