数据分析学习总结笔记08:数据分类典型方法及其R语言实现
数据分析学习总结笔记08:数据分类典型方法及其R语言操作
统计建模与数据挖掘中面对的三大重要问题:预测、分类和聚类。本文学习总结其中的分类问题,主要介绍判别分析方法和logistic回归,这两种方法在现实应用中也十分普遍。
1 判别分析
1.1 判别分析简介
1.1.1 判别分析概念
判别分析(Discriminat Analysis)是多元分析中用于判别样本所属类型的一种统计分析方法。
- 在已知的分类之下,对新的样本,可以利用此方法选定一判别标准,以判定将该新样品放置于哪个类中。
- 适用于数据集较小的情况,因为数据量够大的话神经网络的准确率会比传统的判别分析高得多
- 判别分析的用途甚多:医学疾病诊断、动植物分类、商品等级划分和商业银行客户评级等。
1.1.2 判别分析的种类
(1)确定性判别:Fisher型判别
- 线性型
- 距离型
- 非线性型
(2)概率性判别:Bayes型判别
- 概率型
- 损失型
1.2 距离判别法
1.2.1 两总体距离判别
设μ1,μ2,Σ1,Σ2分别为两个类G1,G2的均值向量和协方差阵。
-
马氏距离(欧式距离只考虑了样本中心点的位置,马氏距离不仅考虑了样本中心点的位置,还考虑了样本各个特征间的相互关系以及样本的度量):
-
判别准则:
(1)等方差阵:直线判别
(2)异方差阵:曲线判别
1.2.2 多总体距离判别
与两总体距离判别类似:
- 首先假定k个类别样本分属k个正态总体;
- 然后基于马氏距离,依次建立建立判别函数和判别规则;
- 基于样本信息,估计判别规则中的未知参数;
- 带入未知样本信息,判别其类别。
(1)协方差矩阵相同:线性判别
(2)协方差矩阵不同:非线性判别
1.3 Fisher 判别法
1.3.1 Fisher 判别法原理
在距离判别法中,向量X的维数较高:
- 均值、协方差估计中待估参数较多;
- 导致判别规则中存在较大的误差。
Fisher在1936年提出了Fisher判别法:
- 把高维空间的点向低维空间投影;
- 先投影到一维空间上,如果判别效果不理想,再投影到另一条直线上(从而构成二维空间);
- 以此类推,每个投影可以建立一个判别函数。
即,利用一条过原点的判别函数,使得不同类别在判别函数上投影的距离尽可能大,而同一类别的距离尽可能小。
1.3.2 Fisher 判别法步骤
1.4 Bayes 判别法
1.4.1 Bayes 判别法概念
Fisher判别缺陷:
- 判别方法与各总体出现的概率无关
- 判别方法与错判后造成的损失无关
Bayes判别准则:
- 以个体归属于某类的概率(判别值)最大或错判总平均损失最小为标准。
1.4.2 概率判别
1.4.3 损失判别
1.5 几种判别方法总结
(1)常用的判别方法有Fisher判别、距离判别、贝叶斯判别等,每个方法根据 其出发点不同各有其特点。
(2) Fisher类判别对判别变量的分布类型并无要求,而Bayes类判别要变量的分 布类型。因此,Fisher类判别较Bayes类判别简单一些。
(3)当两个总体时,若它们的协方差矩阵相同,则距离判别和Fisher判别等价。 当变量服从正态分布时,它们还和Bayes判别等价。
1.6 Fisher判别R语言操作
2 logistic回归
2.1 logistic回归模型设定
考虑因变量y有两个取值的情况,用服从两点分布的随机变量刻画:
- 因变量y的期望,也就是y=1的概率只能在0和1之间取值;
- 对模型中的参数添加了限制,给后续的参数估计带来困难;
- 对因变量的期望做某个单调的变换,使得模型系数可以自由的取值
Logit变换:
Logistic 函数形似"S",是Sigmoid函数的典型代表,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。
2.2 Logistic回归模型系数估计
2.3 Logistic回归模型系数的推断
- 类似回归模型,我们可以从全模型出发,依次删去不显著的自变量,找到一个最终模型
- 当有了新的观测
- 基于其自变量的取值,估计出这个观测对应因变量为1的概率
- 进一步基于这个概率,对因变量做出预测,也就是对这个观测做出分类
2.3 Logistic回归R语言操作
本文主要根据个人学习(机器学习MOOC、有用的统计学MOOC、多元统计分析MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!