客户流失预警分析(2018-07-30)
判定客户是否流失的标志
1.到期之后,不在续约。
2.未到期,但是不在使用。
通常来说老客户的流失带来损失更严重。
分析方法
1.经验模型。
2.从数据中学习,机器学习。
分析流程
1.数据整合
2.数据加工处理
3.数据特征工程
4.训练流失模型
5.验证流失模型
6.应用流失模型
机器学习算法分类
1.有监督学习
学习样本中有结果标记
2.无监督学习
学习样本中无结果标记
常见的分类模型
决策树
归纳分类算法
像是在回答一系列的问题,不同答案将导向不同的分支,最终得到一个分类结果。
如何构建决策树
1.准备工作
明确自变量和因变量,确定信息度量的方式,确定终止条件
信息熵:
2.选择特征
信息增益
3,如何构建一个决策树
1.选择当前的最佳特征
1.计算整体的熵。
2.计算每个属性的熵。
3.计算信息增益,就是整体的熵减去每个属性的熵,就是个各个属性的信息增益。
4.选择信息增益最大的作为第一特征。
5.判断是否满足终止条件
2.重复筛选,选择第二级特征,判断是否满足终止条件。
决策树算法总结
ID3(Iterative Dichotomiser 3, 迭代树三代)
核心是信息熵,根据信息增益决定树的节点
存在的问题是:
信息度量不合理:倾向于选择取值多的字段
输入类型单一:离散型
不做剪枝,容易过拟合
C4.5: 和ID3相比的改进:
用信息增益率代替信息增益
能对连续属性进行离散化,对不完整数据进行处理
进行剪枝。
C50:C4.5相比的改进:
使用了boosting
前修剪,后修剪。
CART(Classification and Regression Tree)
核心是基尼系数
分类是二叉树
支持连续值和离散值
后剪枝进行修剪
支持回归,可以预测连续值。
集成学习
针对同一数据集,训练多种学习器,来解决同一问题。
Bagging:
有放回抽样构建多个子集
训练多个分类器
最终结果由各分类器结果投票得出
实现很简单
Boosting
重复使用一类学习器来修改训练集
每次训练后根据结果调整样本的权重
每次学习器加权后的线性组合即为最终结果。
Stacking
由两级组成,第一级为初级学习器,第二级为高级学习器,
第一级的输出作为第二级的输入。