评分卡实现过程

### 1. 数据预处理
1. `数据清洗`
	对缺失值和异常值进行处理，对缺失值的处理比较简单，删除缺失值超过一定阈值的变量，阈值可以自行设定。
2. `变量分箱`
	什么是变量分箱
	```
对连续变量进行分段离散化;
对离散变量进行合并，减少离散变量的状态数;
```

如何进行变量分箱
>w 1.无监督分箱
> 	等频分箱
> 	等距分箱
> 	聚类分箱
>2.有监督分箱
> 	决策树分箱
> 	卡方分箱

> 注意：由于无监督分箱仅仅考虑了各个变量自身，并没有考虑变量和y值之间的关系，因此无监督分箱不一定能带来模型性能的提升。

特征分箱的优点
```
特征分箱可以有效处理特征中的缺失值和异常值；
特征分箱后，数据和模型会更加稳定；
特征分箱可以简化逻辑回归模型，降低模型过拟合的风险，提高模型的泛化能力；
将所有特征统一变换为类别型变量；
分箱后变量才可以使用标准的评分卡格式，即对不同的分段进行评分；
```

3. `WOE编码`
分箱之后我们就得到一系列的离散变量，然后需要对这些离散变量进行编码，将离散变量转化为连续变量。WOE编码是评分卡模型常用的编码方式。
WOE称为证据权重(Weight Of Evidence)，是一种有监督的编码方式，将预测类别的集中度属性作为编码的数值。

第i箱的的WOE值为：
>d WOE公式01:
> ```latex
> WOE_{i} = log(\frac{p_{i_{1}}}{p_{i_{0}}} )=log(\frac{B_{i}/B_{T}}{G_{i}/G_{T}} )
> ```

参数说明：
	>pi0：第i箱中好客户占所有好客户的比例；
	pi1：第i箱中坏客户占所有坏客户的比例；
	Bi：第i箱中坏客户人数；
	BT：坏客户总人数；
	Gi：第i箱中好客户人数；
	GT：好客户总人数；

从公式可以看出，WOE实际上表示的是：
> "当前分箱中坏客户占所有坏客户的比例" 与 "当前分箱中好客户占所有好客户的比例" 之间的差异

对以上公式进行变换，可以得到：
>d WOE公式02
> ```latex
> WOE_{i}=log(\frac{B_{i}/B_{T}}{G_{i}/G_{T}} )=log(\frac{B_{i}/G_{i}}{B_{T}/G_{T}} )
> ```

变换后可以看出，WOE编码也可以理解为：
> "当前分箱中坏客户数和好客户数的比值" 与 "所有样本中坏客户数和好客户数的比值" 之间的差异。

或者理解为：
> "当前分箱中坏客户数和好客户数的比值" 与 总体平均值 之间的差异

如何根据WOE值预测：
	```
	WOE值越大，说明当前分箱中坏客户的可能性越大；
	WOE值越小，说明当前分箱中坏客户的可能性越小；
	WOE值为0，说明当前分箱没有预测能力；
	```

4. `使用IV值进行特征变量筛选`
	IV(Information Value)，信息价值，是目前评分卡模型中筛选变量最常用的指标之一。
	> 特征变量的IV值越大，说明该变量的预测能力越强。

常用的判断标准如下：

| IV范围 | 预测能力 |
	| --- | --- |
	| <0.02 | 无效 |
	| [0.02, 0.10] | 弱预测力 |
	| [0.10, 0.20] | 中预测力 |
	| >0.20 | 强预测力 |

某个变量`第i个分箱`的IV值计算公式：
	>d IV值计算公式01
	> ```latex
	> IV_{i} = (\frac{B_{i}}{B_{T}} - \frac{G_{i}}{G_{T}}  )\times WOE_{i}
	> ```
	
	单个变量的IV值为该变量`所有分箱`IV值之和：
	>d IV值计算公式02
	> ```latex
	> IV = \sum_{i=1}^{n} (\frac{B_{i}}{B_{T}} - \frac{G_{i}}{G_{T}}  )\times WOE_{i}
	> ```
	
	从上面可以看出，IV值实际上就是各个分箱WOE值的加权求和。

### 2. 逻辑回归
我们知道，逻辑回归的公式为：
```latex
p = \frac{1}{1+e^{-wx} }
```

整理后可得：
```latex
log(\frac{p}{1-p} )=wx
```

我们设`p`为坏客户的概率，则`1-p`为好客户的概率。
我们再来看看WOE编码的定义：
```latex
WOE_{i}=log(\frac{B_{i}/G_{i}}{B_{T}/G_{T}} )=log(\frac{B_{i}}{G_{i}} )-log(\frac{B_{T}}{G_{T}} ) \\
~\\
= log(\frac{B_{i}/(B_{i}+G_{i})}{G_{i}/(B_{i}+G_{i})} ) - Const\  \\ 
~\\
= log(\frac{p_{i}}{1-p_{i}} ) - Const \quad\quad\ \ \ 
```
其中`p[i]`表示`第i个分箱中坏客户的比例`，我们设`log(p/1-p)=C`，则`log(p[i]/1-p[i])=C[i]`。
因此逻辑回归函数可以简化为：
```latex
C = w(C_{i}-Const)
```

> 从这里可以看出，WOE编码实际上是将特征从非线性可分 映射到 线性可分的空间内，如下图所示。
<div align="center">
<img src="/media/202210/v2-f9641d365b592361e541b4d5458ebf2d_720w_1667116330.jpg" width=350px/>
</div>

### 3. 逻辑回归模型转化为评分卡模型
>d 逻辑回归公式：
> ```latex
> p = \frac{1}{1+e^{-wx} }
> ```

整理以上公式可得：
```latex
log(\frac{p}{1-p} )=wx
```
我们定义`p`为客户违约的概率，则`1-p`为好客户的概率。
则客户`违约的相对概率 q`：
```latex
q=\frac{p}{1-p}
```
代入公式可得：
```latex
log(q)=wx
```
>d 评分卡公式01：
> ```latex
> Score = A - B \times log(q)
> ```

> 其中，A与B为常数。
> 该公式就是这么定义的，没有推导过程，但它有一定的意义：
> 1. 违约概率越低得分(score)越高；
> 2. 高分值代表低风险，低分值代表高风险；
>
> **因此， Score可以理解为客户为好客户的分数；**
> 我们可以根据用户的得分情况来判断他的违约概率。

该公式也可以表示为：
>d 评分卡公式02
> ```latex
>Score = A - B \times wx
>```

A和B的值可以通过将两个已知或假设的分值带入计算得到。通常需要设定两个假设：
- 某个特定的违约概率下的评分，即假设q为`q0`时的评分为`score0`；
- 违约的相对概率翻倍时减少的分数`PDO`，即q为`2q0`时分值减少`PDO`；

根据以上假设，可以得到公式：
```latex
score0 = A - B\times log(q_{0}) \quad\quad\quad\quad\ \\
score0 - PDO = A - B\times log(2q_{0})
```
>w 解方程组可得：
> ```latex
> B = \frac{PDO}{log2} \quad\quad\quad\quad\quad\quad\quad\\
~\\
> A = score0 + B \times log(q_{0})
> ```

根据前面得到的`评分卡公式02`，我们可以得到：
>d 评分卡公式03
> ```latex
> Score = A - B\times (w_{0}+\sum_{i=1}^{n} w_{i}x_{i} )
> ```

其中，`w[i]`为逻辑回归求出来的系数。
由于所有特征都进行了WOE编码，所以`w[i]*x[i]`可以写为：
```latex
w_{i}x_{i} = \sum_{j=1}^{m}w_{i}e_{i j}\delta_{i j}
```
其中：
> `i`表示第i个特征；
> `m`表示一共有m个分箱;
> `w[i]` 表示逻辑回归求得的第i个特征的系数；
> `e[i][j]`表示第i个特征的第j个分箱的WOE值；
> `δ[i][j]`是0/1逻辑变量，为1时表示该变量取第j个分箱，为0时表示该变量不取第j个分箱；

>w 关于`δ[i][j]`的理解
给定一份数据（一行数据，x[0], x[1], ... ,x[n]），`x[i]`只会属于某一个分箱，因此列表 `[δ[i][j] for j in range(m)]`中只有一个值不为0；

因此可推导出最终公式为：
>d 评分卡最终公式
>```latex
>Score = A - B\times (w_{0}+\sum_{i=1}^{n} \sum_{j=1}^{m}w_{i}e_{i j}\delta_{i j} )
>```

### 参考
> [玩转逻辑回归之金融评分卡模型](https://zhuanlan.zhihu.com/p/36539125)
> [评分卡？没那么难！手把手教你做简单标准评分卡](https://zhuanlan.zhihu.com/p/53910825)
> [关于评分卡模型那些事儿，看这篇就对了](https://www.dingxiang-inc.com/blog/post/567)
>
> [在线编辑数学公式](https://www.latexlive.com/)