机器学习相关--PCA主成分分析
特征降维的方法
- 为什么要降维?
- 通常处理的数据是多维的,算法的时间复杂度跟维数成指数级增加。
维数达上千万维,称为维数灾难,往往就需要进行降维处理。
- 降维的作用?
- 数据降维:
1.使数据集更容易使用;
2.降低算法的计算开销;
3.去除噪声;
4.减轻过拟合;
5.易于获取有价值的信息.
数据降维方法众多,需根据特定问题选用合适的数据降维方法
- 降维处理的相关问题?
- 考虑会丢失信息吗?
- 考虑属性之间的相关性?
- 降维的同时减少信息的损失
- 降维的方法
- 特征选择:从原始的特征中挑选最具有代表性的一些特征
- 特征提取:用变换(映射)的方法,吧原始特征变换为较少的新特征。由原始数据创建新的特征集成为特征提取。
- PCA主成分分析
- 把数据从原来的坐标系变化到新的坐标系,新的坐标系的选择由数据本身决定
- PCA的应用领域:
- 股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。
- 从数学层面理解PCA:
- PCA 的目标就是在高维数据中找到最大方差的方向,并将数据映射到一个维度不大于原始数据的新的子空间上。寻找最大的方差方向就是信息的保留量(信息论)
- PCA 优缺点:
优点:降低数据的复杂性, 识别最重要的多个特征
缺点:不一定需要, 且可能损失有用信息
- PCA算法流程
输入:m个n维数据集;
输出:m个n维数据集(r<n);
(1)将m行n列数据集按列(特征)进行去均值化后为X;
(2)求协方差矩阵
(3)求协方差矩阵C的特征值和特征向量;
(4)将特征向量按照特征值从大到小的顺序,从左到右排成矩阵,并取前r个组成P;
(5)Y=XP即为降维到r维后的数据
- PCA实例
有 5 个二维的样本,降到一维,数据矩阵如下
- PCA处理后的手写体识别
这里面我们将原始的 8*8=64 维度的数据压缩到只有两个维度的特征空间,
依然可以发现绝大多数数字之间可以区分清楚。
- PCA总结以及与LDA的区别和联系
- 总结
- 降维/压缩问题则是选择数据具有代表性的特征,在保持数据多样性的基础
- 总结
上,规避掉大量的特征冗余和噪声,不过这个过程也很有可能会损失一些有用的
模式信息。经过大量的实践证明,相比较损失的少部分模型性能,维度压缩能够 节省大量用于模型训练的时间,这样一来 PCA 所带来的模型综合效率变得更为划算。
- LDA 的概念与 PCA 区别与联系
- PCA 试图在数据集中找到方差最大的正交主成分量的轴,而 LDA 的目
标是发现可以最优化分类的特征子空间。 LDA 和 PCA 都是可以降低数据集维度的
线性转化技巧。
- PCA 是一种无监督算法(不需要类标签的参与),而 LDA 是监督算法。
- 在图像识别某些情况下,如每个类别中只有少量样本使用 PCA 最为预
处理工具的分类结果更佳。
END