机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA

  • 距离判别法是利用重心,和哪类的重心隔得更近,就判别为哪一类。
  • Fisher 判别法则是利用“同类差别较小、不同类差别较大”的原则构造出判别式,再按照判别式的值来判断新个体的类别。

1. 简单的判别分析_ 距离判别法

距离判别法首先根据已知分类的数据,分别计算出各类的重心。再根据新个体到每类的距离(即新个体与各类重心的距离,可采用欧氏距离或者马氏距离等等),根据最短的距离确定分类情况。
机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA

2. Fisher判别分析/线性判别分析

线性判别分析(Linear Discriminant Analysis, 简称LDA)又称为Fisher判别分析(费舍尔判别分析 ,简称 FDA)

2.1 针对2分类问题

2.1.1 投影降维

Fisher判别分析思想:

  • 给定训练样本集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能接近,不同类样本的投影点尽可能远离。
  • 在对新样本进行分类时,将其投影到同样的这条直线上,再根据新样本投影点的位置来确定它的类别。
    如下图所示,给出了一个二维示意图。
    机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA
    机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA
    Remark1:为什么画过原点?
    所关心的仅仅是这些点到一条直线投下来的影子点之间的距离,所以直线可以沿着投影方向随意平移,这并不影响它的影子点之间的距离。因此直线经过垂直方向平移后,肯定可以过原点。
    Remark2:怎么理解WTx?
    机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA

2.1.2 组内偏差

使得同类样本的投影点之间的距离尽可能接近。按照方差分析里的思想,应该把各组内的偏差相加,再把各组的偏差总和相加。
机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA

2.2.3 组间偏差

使得不同类样例的投影点之间的距离尽可能远离。按照方差分析里的思想,应该把各组和总体均值的偏差加权相加(这个体现在Fisher的多分类推广里面)
机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA

2.2.4 最佳投影

机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA
机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA

2.2 推广至多分类

机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA

3. 分析步骤

机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA

4. 相关链接

4.1 LDA相关知识

LDA相关知识

4.2 LDA和PCA的区别

LDA和PCA的区别

5. 分析小结

Fisher判别分析,利用投影技术进行降维,降维后计算组内偏差(此处可类比到方差分析中的随机误差),同时计算组间偏差(此处可类比方差分析中的各个因素水平之间的组间偏差),利用凸优化方法找到使得组内偏差最小化、组间偏差最大化的直线或者超平面来分割不同的类别。