主成分分析理论知识

主成分分析理论知识

  • 1、主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。
    在实际问题中, 研究多指标的问题是经常遇到的问题,由于变量个数太多,彼此之间存在着一定的关联性,因而使得所观测到是数据在一定程度上所反映的信息会有所重叠。主成分分析是一种降维的思想,利用较少的变量尽可能多地反映原来变量的信息,而且彼此之间互不相关。

  • 2、主成分分析的应用:指标分类(变量分类)、样品分类、样品排序或系统评估(使用第一主成分)、主成分回归、主成分检验法

  • 3、主成分的定义如下:
    主成分分析理论知识
    限制条件:ai.T * ai = 1, Cov(Zi, Zj) = 0 (当 i != j) Var(Zi) = max Var(a.T*X)
    即存在ai使得ai.T * ai = 1, 且Zi的方差是第i大方差。

  • 4、 当数据进行标准化后,这时样本协方差阵就是样本相关阵R,且
    R = 1/(n-1)X.TX
    将数据进行标准化之后, a1, a2, a3…ap是相关阵R的单位正交特征向量,只需要求出相关阵R的单位正交特征向量即可求出主成分Zi,
    主成分分析理论知识

  • 5 、原始变量与样本主成分的得分
    将第t个样品X(t)的值代入Zi的表达式,经计算得到的值称为第t个样品在第i个主成分的得分, 记为Zti
    主成分分析理论知识
    主成分分析理论知识

  • 6、对于样本数据的处理流程:

    • 1、将数据进行标准化
    • 2、求出标准化之后的数据相关阵R
    • 3、求出相关阵R的特征值
    • 4、求出特征值对于的特征向量(从大到小排序)
    • 5、将特征向量标准化为单位正交特征向量,假设为a11, a12…a1p
    • 6、则第i大主成分:Zi = a11 * X1 + a12 * X2 + …+ a1p * Xp (X1, X2…Xp为变量)
  • 7、主成分回归:跟线性回归的思想一样,将前m个主成分当成变量,则 y = b1 * Z1 + b2 * Z2+b3 * Z3…+bm * Zm

参考文献及图片出处:
应用多元统计分析 高惠璇 编著