主成分分析理论知识
主成分分析理论知识
-
1、主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。
在实际问题中, 研究多指标的问题是经常遇到的问题,由于变量个数太多,彼此之间存在着一定的关联性,因而使得所观测到是数据在一定程度上所反映的信息会有所重叠。主成分分析是一种降维的思想,利用较少的变量尽可能多地反映原来变量的信息,而且彼此之间互不相关。 -
2、主成分分析的应用:指标分类(变量分类)、样品分类、样品排序或系统评估(使用第一主成分)、主成分回归、主成分检验法
-
3、主成分的定义如下:
限制条件:ai.T * ai = 1, Cov(Zi, Zj) = 0 (当 i != j) Var(Zi) = max Var(a.T*X)
即存在ai使得ai.T * ai = 1, 且Zi的方差是第i大方差。 -
4、 当数据进行标准化后,这时样本协方差阵就是样本相关阵R,且
R = 1/(n-1)X.TX
将数据进行标准化之后, a1, a2, a3…ap是相关阵R的单位正交特征向量,只需要求出相关阵R的单位正交特征向量即可求出主成分Zi, -
5 、原始变量与样本主成分的得分
将第t个样品X(t)的值代入Zi的表达式,经计算得到的值称为第t个样品在第i个主成分的得分, 记为Zti -
6、对于样本数据的处理流程:
- 1、将数据进行标准化
- 2、求出标准化之后的数据相关阵R
- 3、求出相关阵R的特征值
- 4、求出特征值对于的特征向量(从大到小排序)
- 5、将特征向量标准化为单位正交特征向量,假设为a11, a12…a1p
- 6、则第i大主成分:Zi = a11 * X1 + a12 * X2 + …+ a1p * Xp (X1, X2…Xp为变量)
-
7、主成分回归:跟线性回归的思想一样,将前m个主成分当成变量,则 y = b1 * Z1 + b2 * Z2+b3 * Z3…+bm * Zm
参考文献及图片出处:
应用多元统计分析 高惠璇 编著