机器学习
回归模型评估
案例一:鸢尾花分类
机器学习的优化算法
交叉熵
lightGBM
处理非平衡数据集的方法
AdaBoost
GBDT
XGBoost
决策树
线性回归
pytorch 优化器的使用
分类模型评估
损失函数
前馈神经网络
特征工程
分箱
评分卡实现过程
逻辑回归
本文档使用 MrDoc 发布
-
+
首页
评分卡实现过程
### 1. 数据预处理 1. `数据清洗` 对缺失值和异常值进行处理,对缺失值的处理比较简单,删除缺失值超过一定阈值的变量,阈值可以自行设定。 2. `变量分箱` 什么是变量分箱 ``` 对连续变量进行分段离散化; 对离散变量进行合并,减少离散变量的状态数; ``` 如何进行变量分箱 >w 1.无监督分箱 > 等频分箱 > 等距分箱 > 聚类分箱 >2.有监督分箱 > 决策树分箱 > 卡方分箱 > 注意:由于无监督分箱仅仅考虑了各个变量自身,并没有考虑变量和y值之间的关系,因此无监督分箱不一定能带来模型性能的提升。 特征分箱的优点 ``` 特征分箱可以有效处理特征中的缺失值和异常值; 特征分箱后,数据和模型会更加稳定; 特征分箱可以简化逻辑回归模型,降低模型过拟合的风险,提高模型的泛化能力; 将所有特征统一变换为类别型变量; 分箱后变量才可以使用标准的评分卡格式,即对不同的分段进行评分; ``` 3. `WOE编码` 分箱之后我们就得到一系列的离散变量,然后需要对这些离散变量进行编码,将离散变量转化为连续变量。WOE编码是评分卡模型常用的编码方式。 WOE称为证据权重(Weight Of Evidence),是一种有监督的编码方式,将预测类别的集中度属性作为编码的数值。 第i箱的的WOE值为: >d WOE公式01: > ```latex > WOE_{i} = log(\frac{p_{i_{1}}}{p_{i_{0}}} )=log(\frac{B_{i}/B_{T}}{G_{i}/G_{T}} ) > ``` 参数说明: >pi0:第i箱中好客户占所有好客户的比例; pi1:第i箱中坏客户占所有坏客户的比例; Bi:第i箱中坏客户人数; BT:坏客户总人数; Gi:第i箱中好客户人数; GT:好客户总人数; 从公式可以看出,WOE实际上表示的是: > "当前分箱中坏客户占所有坏客户的比例" 与 "当前分箱中好客户占所有好客户的比例" 之间的差异 对以上公式进行变换,可以得到: >d WOE公式02 > ```latex > WOE_{i}=log(\frac{B_{i}/B_{T}}{G_{i}/G_{T}} )=log(\frac{B_{i}/G_{i}}{B_{T}/G_{T}} ) > ``` 变换后可以看出,WOE编码也可以理解为: > "当前分箱中坏客户数和好客户数的比值" 与 "所有样本中坏客户数和好客户数的比值" 之间的差异。 或者理解为: > "当前分箱中坏客户数和好客户数的比值" 与 总体平均值 之间的差异 如何根据WOE值预测: ``` WOE值越大,说明当前分箱中坏客户的可能性越大; WOE值越小,说明当前分箱中坏客户的可能性越小; WOE值为0,说明当前分箱没有预测能力; ``` 4. `使用IV值进行特征变量筛选` IV(Information Value),信息价值,是目前评分卡模型中筛选变量最常用的指标之一。 > 特征变量的IV值越大,说明该变量的预测能力越强。 常用的判断标准如下: | IV范围 | 预测能力 | | --- | --- | | <0.02 | 无效 | | [0.02, 0.10] | 弱预测力 | | [0.10, 0.20] | 中预测力 | | >0.20 | 强预测力 | 某个变量`第i个分箱`的IV值计算公式: >d IV值计算公式01 > ```latex > IV_{i} = (\frac{B_{i}}{B_{T}} - \frac{G_{i}}{G_{T}} )\times WOE_{i} > ``` 单个变量的IV值为该变量`所有分箱`IV值之和: >d IV值计算公式02 > ```latex > IV = \sum_{i=1}^{n} (\frac{B_{i}}{B_{T}} - \frac{G_{i}}{G_{T}} )\times WOE_{i} > ``` 从上面可以看出,IV值实际上就是各个分箱WOE值的加权求和。 ### 2. 逻辑回归 我们知道,逻辑回归的公式为: ```latex p = \frac{1}{1+e^{-wx} } ``` 整理后可得: ```latex log(\frac{p}{1-p} )=wx ``` 我们设`p`为坏客户的概率,则`1-p`为好客户的概率。 我们再来看看WOE编码的定义: ```latex WOE_{i}=log(\frac{B_{i}/G_{i}}{B_{T}/G_{T}} )=log(\frac{B_{i}}{G_{i}} )-log(\frac{B_{T}}{G_{T}} ) \\ ~\\ = log(\frac{B_{i}/(B_{i}+G_{i})}{G_{i}/(B_{i}+G_{i})} ) - Const\ \\ ~\\ = log(\frac{p_{i}}{1-p_{i}} ) - Const \quad\quad\ \ \ ``` 其中`p[i]`表示`第i个分箱中坏客户的比例`,我们设`log(p/1-p)=C`,则`log(p[i]/1-p[i])=C[i]`。 因此逻辑回归函数可以简化为: ```latex C = w(C_{i}-Const) ``` > 从这里可以看出,WOE编码实际上是将特征从非线性可分 映射到 线性可分的空间内,如下图所示。 <div align="center"> <img src="/media/202210/v2-f9641d365b592361e541b4d5458ebf2d_720w_1667116330.jpg" width=350px/> </div> ### 3. 逻辑回归模型转化为评分卡模型 >d 逻辑回归公式: > ```latex > p = \frac{1}{1+e^{-wx} } > ``` 整理以上公式可得: ```latex log(\frac{p}{1-p} )=wx ``` 我们定义`p`为客户违约的概率,则`1-p`为好客户的概率。 则客户`违约的相对概率 q`: ```latex q=\frac{p}{1-p} ``` 代入公式可得: ```latex log(q)=wx ``` >d 评分卡公式01: > ```latex > Score = A - B \times log(q) > ``` > 其中,A与B为常数。 > 该公式就是这么定义的,没有推导过程,但它有一定的意义: > 1. 违约概率越低得分(score)越高; > 2. 高分值代表低风险,低分值代表高风险; > > **因此, Score可以理解为客户为好客户的分数;** > 我们可以根据用户的得分情况来判断他的违约概率。 该公式也可以表示为: >d 评分卡公式02 > ```latex >Score = A - B \times wx >``` A和B的值可以通过将两个已知或假设的分值带入计算得到。通常需要设定两个假设: - 某个特定的违约概率下的评分,即假设q为`q0`时的评分为`score0`; - 违约的相对概率翻倍时减少的分数`PDO`,即q为`2q0`时分值减少`PDO`; 根据以上假设,可以得到公式: ```latex score0 = A - B\times log(q_{0}) \quad\quad\quad\quad\ \\ score0 - PDO = A - B\times log(2q_{0}) ``` >w 解方程组可得: > ```latex > B = \frac{PDO}{log2} \quad\quad\quad\quad\quad\quad\quad\\ ~\\ > A = score0 + B \times log(q_{0}) > ``` 根据前面得到的`评分卡公式02`,我们可以得到: >d 评分卡公式03 > ```latex > Score = A - B\times (w_{0}+\sum_{i=1}^{n} w_{i}x_{i} ) > ``` 其中,`w[i]`为逻辑回归求出来的系数。 由于所有特征都进行了WOE编码,所以`w[i]*x[i]`可以写为: ```latex w_{i}x_{i} = \sum_{j=1}^{m}w_{i}e_{i j}\delta_{i j} ``` 其中: > `i`表示第i个特征; > `m`表示一共有m个分箱; > `w[i]` 表示逻辑回归求得的第i个特征的系数; > `e[i][j]`表示第i个特征的第j个分箱的WOE值; > `δ[i][j]`是0/1逻辑变量,为1时表示该变量取第j个分箱,为0时表示该变量不取第j个分箱; >w 关于`δ[i][j]`的理解 给定一份数据(一行数据,x[0], x[1], ... ,x[n]),`x[i]`只会属于某一个分箱,因此列表 `[δ[i][j] for j in range(m)]`中只有一个值不为0; 因此可推导出最终公式为: >d 评分卡最终公式 >```latex >Score = A - B\times (w_{0}+\sum_{i=1}^{n} \sum_{j=1}^{m}w_{i}e_{i j}\delta_{i j} ) >``` ### 参考 > [玩转逻辑回归之金融评分卡模型](https://zhuanlan.zhihu.com/p/36539125) > [评分卡?没那么难!手把手教你做简单标准评分卡](https://zhuanlan.zhihu.com/p/53910825) > [关于评分卡模型那些事儿,看这篇就对了](https://www.dingxiang-inc.com/blog/post/567) > > [在线编辑数学公式](https://www.latexlive.com/)
gaojian
2022年11月12日 07:30
分享文档
收藏文档
上一篇
下一篇
微信扫一扫
复制链接
手机扫一扫进行分享
复制链接
关于 MrDoc
觅思文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果觅思文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护觅思文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
Markdown文件
分享
链接
类型
密码
更新密码