机器学习---背后数学原理--降维PCA(主成分分析)
文章目录
维度灾难
-
从数据的角度上来看
当你的模型增加一个特征(属性)后,你所需要的数据是以指数幂的形式增加
-
从几何的角度上来看
模型维度的增加,会导致数据的稀疏性
过拟合的三种解决方案:
- 增加数据
- 正则化
- 降维
PCA(主成分分析)
数学 预备知识
由以下推导可以得出:
对于一个数据集,有N个样本,每个样本p维
则,可求出这N分样本的 样本均值(Sample Mean)的矩阵表示
和 样本协方差(Sample covariance) 的矩阵表示
PCA(主成分分析)的核心思想
上面的数学推导的结论为:
则 PCA的核心思想可以总结为
标准术语就是:
PCA的目标:
将相关的特征重构成无关的特征
实现这个目标的思路:
有两个,分别为:
1. 最大投影方差
2. 最小重构距离
事实上,这两种思路其实是一个意思。