直白解读在预测系统中基尼系数及其归一化

直白解读在预测系统中基尼系数及其归一化

在CTR(click-through-rate 点击通过率)等预测模型中,绘制了Gini Normalization来评价不同模型的效果。

基尼系数分析

直白解读,假设有下面两组结果,分别表示预测值和实际值:

predictions = [0.9, 0.3, 0.8, 0.75, 0.65, 0.6, 0.78, 0.7, 0.05, 0.4, 0.4, 0.05, 0.5, 0.1, 0.1]
actual = [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

然后将预测值按照从小到大排列,并根据索引序对实际值进行排序得到:

Sorted Actual Values [0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1]

可根据排序结果得到如下图所示:
直白解读在预测系统中基尼系数及其归一化
对基尼系数进行归一化处理,引入一条绝对公平线即成45度方向连接折线的两端,如下图,橙色部分面积即为所求的Normalization的Gini系数。
直白解读在预测系统中基尼系数及其归一化
由于我们是将预测概率从小到大排的,所以我们希望实际值中的0尽可能出现在前面,因此Normalization的Gini系数越大,分类效果越好。