机器学习---背后数学原理--降维PCA(主成分分析)

维度灾难

  1. 从数据的角度上来看

    当你的模型增加一个特征(属性)后,你所需要的数据是以指数幂的形式增加

  2. 从几何的角度上来看

    模型维度的增加,会导致数据的稀疏性
    机器学习---背后数学原理--降维PCA(主成分分析)

过拟合的三种解决方案:

  1. 增加数据
  2. 正则化
  3. 降维
    机器学习---背后数学原理--降维PCA(主成分分析)

PCA(主成分分析)

数学 预备知识

由以下推导可以得出:
对于一个数据集,有N个样本,每个样本p维
则,可求出这N分样本的 样本均值(Sample Mean)的矩阵表示
和 样本协方差(Sample covariance) 的矩阵表示

机器学习---背后数学原理--降维PCA(主成分分析)

PCA(主成分分析)的核心思想

上面的数学推导的结论为:
机器学习---背后数学原理--降维PCA(主成分分析)

则 PCA的核心思想可以总结为
机器学习---背后数学原理--降维PCA(主成分分析)
标准术语就是:

PCA的目标:

将相关的特征重构成无关的特征

实现这个目标的思路:
有两个,分别为:
1. 最大投影方差
2. 最小重构距离

事实上,这两种思路其实是一个意思。

最大投影方差

机器学习---背后数学原理--降维PCA(主成分分析)

最小重构距离

机器学习---背后数学原理--降维PCA(主成分分析)

PCA(主成分分析)------最大投影方差角度

机器学习---背后数学原理--降维PCA(主成分分析)
机器学习---背后数学原理--降维PCA(主成分分析)
机器学习---背后数学原理--降维PCA(主成分分析)

PCA(主成分分析)------ 最小重构距离角度

PCA(主成分分析)------SVD角度

PCA(主成分分析)------概率角度