PCA学习笔记

PCA的意义

机器学习中的主要问题:维度灾难 
PCA:在力求数据信息丢失最少的原则下,对高纬度的变量空间降维 ,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多的保留信息。这些综合指标就称为主成分 。

PCA推导

该X的协方差矩阵 为
PCA学习笔记

由于此矩阵为非负定的对称阵,则有利用线性代数的知识可得,比存在正交矩阵U,使得 : PCA学习笔记

其中P个特征值,假设大小是降序。
而U恰好是由特征根相对应的特征向量所组成的正交阵

PCA学习笔记
这里,由U的第一列元素所工程为原始变量的线性组合有最大的方差 。 (证明比较复杂,可自行研究)
PCA学习笔记
有些时候,第一主成分不足,所以要寻找第二主成分.

第二主成分

在约束条件cov(F1,F2)=0下,寻找第二主成分F2=U12X1+…+Up2Xp

PCA 实施

PCA学习笔记

PCA学习笔记