7 主成分分析
7.1 引言
- 数据分析时,涉及(间隔)变量多,带复杂
- 这些变量间常存在一定、有时甚至相当高的相关
- 使观测数据中的信息一定程度重叠
- 正是变量间信息重叠,使变量降维可能
- pca由Pearson,01,后霍特林33
- 降维把多个变量少数几个主成分(综合变量)
- 主成分能反映原始变量大部分信息
- 常为原始变量某种线性组合
- 为有效降维,应使这些主成分所含的信息(线性意义)不重叠
- 即互不相关
- pca用较少的不相关(综合)变量代替大量相关变量的统计降维法
- 主成分的应用分两
- 用前少数几个主成分替代众原始变量以作分析
- 主成分本身就成了分析的目标
- 它们要能够派用处,其大致的含义必须明白
- 也就是需要给出这前几个主成分一个符合实际背景和意义的解释
- 更多的另一些中,主成分只是要达到目标的中间结果(或步骤),而非目标本身
- 将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性和寻找异常值
- 通过方差接近于零的主成分
- 发现原始变量间的多重共线性关系
- 此时主成分不必给出解释
- (间隔)变量个数
- n样品,都测两变量
- 分布在椭圆
- 中,点坐标和呈现线性相关
- 坐标系逆时针变成新,是椭圆长轴,短轴
- 点在新系下坐标和不相关
- 上方差最大,此方向上样品间差异的信息最多
- 若欲将二维空间的点投影到某方向
- 则选轴能使信息损失降到最小
- 称为第一主成分。
- 而与正交的上,有较小方差,称为第二主成分。
- 图中,第一主成分效果与椭圆形状有关
- 越扁(和越相关),n个点在上方差越大(同时上方差就越小),用第一主成分代替二维空间所造成的信息损失也越小
- 变圆,第一主成分只含二维空间点一半信息
- 仅用这一个主成分,则损失50%信息
- 原因是,原始变量和的相关程度几乎零
- 和所含信息几乎不重叠,无法用一维的综合变量来代替
- 扁到成轴上一条线
- 第一主成分含二维空间点100%信息
- 仅用这一个主成分代替原始二维变量不会有信息损失
7.2 总体的主成分
一、主成分的定义及导出
- 为维随机向量
- 假定二阶矩存在
-
- 如下线性变换
- 在本章有特定的含义。
- 先用一个变量来代表原始个
- 为使在一切线性组合中最具代表性,
- 应使其方差最大,以最大保留这组变量的方差和协方差结构的信息
- ,如不对限制,方差最大就没意义
- 为使在一切线性组合中最具代表性,
- 限制为单位,希在此约束下寻向量
- 使最大,
- 称第一主成分
-
特征值
- 正交特征向量
-
(1.8.3)式知,
-
当时,达到最大
- 就是第一主成分
- 若第一主成分信息不够,不足代表原始的个变量
- 则再考虑使用
- 为使所含信息与不重叠,应要求
- 在上式和约束下寻
- 使最大,求的称第二主成分
-
的第主成分指,
- 在约東
- 下寻使达最大,
二、主成分的性质
- 主成分向量的协方差矩阵
- 即
- 且互不相关