客户流失预警分析（2018-07-30）

判定客户是否流失的标志
　　1.到期之后，不在续约。
　　2.未到期，但是不在使用。
　　通常来说老客户的流失带来损失更严重。
分析方法
　　1.经验模型。
　　2.从数据中学习，机器学习。
分析流程
　　1.数据整合
　　2.数据加工处理
　　3.数据特征工程
　　4.训练流失模型
　　5.验证流失模型
　　6.应用流失模型
机器学习算法分类
　1.有监督学习
　　学习样本中有结果标记
　2.无监督学习
　　学习样本中无结果标记
常见的分类模型
　决策树
　　归纳分类算法
　　　　像是在回答一系列的问题，不同答案将导向不同的分支，最终得到一个分类结果。
　如何构建决策树
　　1.准备工作
　　　　明确自变量和因变量，确定信息度量的方式，确定终止条件
　　信息熵：
客户流失预警分析（2018-07-30）
　　2.选择特征
　　　　信息增益

　　3,如何构建一个决策树
　　　1.选择当前的最佳特征
　　　1.计算整体的熵。
　　　2.计算每个属性的熵。
　　　3.计算信息增益，就是整体的熵减去每个属性的熵，就是个各个属性的信息增益。
　　　4.选择信息增益最大的作为第一特征。
　　　5.判断是否满足终止条件
　　　2.重复筛选，选择第二级特征，判断是否满足终止条件。
决策树算法总结
　ID3（Iterative Dichotomiser 3, 迭代树三代)
　　　核心是信息熵，根据信息增益决定树的节点
　存在的问题是：
　　　信息度量不合理：倾向于选择取值多的字段
　　　输入类型单一：离散型
　　　不做剪枝，容易过拟合
　C4.5: 和ID3相比的改进：
　　　用信息增益率代替信息增益
　　　能对连续属性进行离散化，对不完整数据进行处理
　　　进行剪枝。
　C50：C4.5相比的改进：
　　　使用了boosting
　　　前修剪，后修剪。
　CART(Classification and Regression Tree)
　　　核心是基尼系数
　　　分类是二叉树
　　　支持连续值和离散值
　　　后剪枝进行修剪
　　　支持回归，可以预测连续值。
集成学习
　针对同一数据集，训练多种学习器，来解决同一问题。
　　　Bagging:
　　　　有放回抽样构建多个子集
　　　　训练多个分类器
　　　　最终结果由各分类器结果投票得出
　　　　实现很简单
　　　Boosting
　　　　重复使用一类学习器来修改训练集
　　　　每次训练后根据结果调整样本的权重
　　　　每次学习器加权后的线性组合即为最终结果。
　　　Stacking
　　　　由两级组成，第一级为初级学习器，第二级为高级学习器，
　　　　第一级的输出作为第二级的输入。

客户流失预警分析（2018-07-30）

相关推荐