7 主成分分析

7.1 引言

  • 数据分析时,涉及(间隔)变量多,带复杂
  • 这些变量间常存在一定、有时甚至相当高的相关
    • 使观测数据中的信息一定程度重叠
  • 正是变量间信息重叠,使变量降维可能

  • pca由Pearson,01,后霍特林33
  • 降维把多个变量\to少数几个主成分(综合变量)
  • 主成分能反映原始变量大部分信息
    • 常为原始变量某种线性组合
  • 为有效降维,应使这些主成分所含的信息(线性意义)不重叠
    • 即互不相关
  • pca用较少的不相关(综合)变量代替大量相关变量的统计降维法

  • 主成分的应用分两
  • 用前少数几个主成分替代众原始变量以作分析
    • 主成分本身就成了分析的目标
    • 它们要能够派用处,其大致的含义必须明白
    • 也就是需要给出这前几个主成分一个符合实际背景和意义的解释
  • 更多的另一些中,主成分只是要达到目标的中间结果(或步骤),而非目标本身
    • 将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性和寻找异常值
    • 通过方差接近于零的主成分
      • 发现原始变量间的多重共线性关系
    • 此时主成分不必给出解释

  • (间隔)变量个数p=2p=2
  • n样品,都测两变量(x1,x2)(x_1,x_2)
  • 分布在椭圆
  • x1Ox2x_1Ox_2中,点坐标x1x_1x2x_2呈现线性相关
  • 坐标系逆时针θ\theta变成新,y1y_1是椭圆长轴,y2y_2短轴

7 主成分分析

  • 点在新系下坐标y1y_1y2y_2不相关
  • y1y_1上方差最大,此方向上nn样品间差异的信息最多
  • 若欲将二维空间的点投影到某方向
    • 则选y1y_1轴能使信息损失降到最小
    • y1y_1为第一主成分。
  • 而与y1y_1正交的y2y_2上,有较小方差,称y2y_2为第二主成分。
  • 图中,第一主成分效果与椭圆形状有关
    • 越扁(x1x_1x2x_2越相关),n个点在y1y_1上方差越大(同时y2y_2上方差就越小),用第一主成分代替二维空间所造成的信息损失也越小
  • 变圆,第一主成分只含二维空间点一半信息
    • 仅用这一个主成分,则损失50%信息
    • 原因是,原始变量x1x_1x2x_2的相关程度几乎零
    • x1x_1x2x_2所含信息几乎不重叠,无法用一维的综合变量来代替
  • 扁到成轴上一条线
    • 第一主成分含二维空间点100%信息
    • 仅用这一个主成分代替原始二维变量不会有信息损失

7.2 总体的主成分

一、主成分的定义及导出

  • x\pmb{x}pp维随机向量
  • 假定二阶矩存在
  • μ=E(x)\pmb{\mu}=E(\pmb{x})
    • Σ=V(x)\pmb{\Sigma}=V(\pmb{x})
  • 如下线性变换

7 主成分分析

  • y1,y2,,ypy_1,y_2,\cdots,y_p在本章有特定的含义。
  • 先用一个变量来代表原始pp
    • 为使y1y_1在一切线性组合中最具代表性,
      • 应使其方差最大,以最大保留这组变量的方差和协方差结构的信息
    • V(ka1x)=k2V(a1x)V(ka_1'\pmb{x})=k^2V(a_1'\pmb{x}),如不对a1\pmb{a_1}限制,方差最大就没意义
  • 限制a1a_1为单位,希在此约束下寻向量a1\pmb{a}_1
  • 使V(y1)=a1Σa1V(y_1)=a_1'\Sigma a_1最大,
    • 第一主成分

  • Σ\Sigma特征值

    • λ1λr>λr+1==λp=0\lambda_1\ge\cdots\ge\lambda_r>\lambda_{r+1}=\cdots=\lambda_{p}=0
    • 正交特征向量t1,t2,,tpt_1,t_2,\cdots,t_p
  • (1.8.3)式知,

  • a1=t1a_1=t_1时,达到最大

    • y1=t1xy_1=t_1'x就是第一主成分

  • 若第一主成分信息不够,不足代表原始的pp个变量
  • 则再考虑使用y2y_2
  • 为使y2y_2所含信息与y1y_1不重叠,应要求

Cov(y1,y2)=0Cov(y_1,y_2)=0

  • 在上式和约束a2=1||a_2||=1下寻a2a_2
    • 使V(Y2)=a2Σa2V(Y_2)=a_2'\Sigma a_2最大,求的y2y_2称第二主成分
  • xx的第ii主成分yi=aixy_i=a_i'x指,
    • 在约東

7 主成分分析

  • 下寻aia_i使V(yi)=aiΣaiV(y_i)=a_i'\Sigma a_i达最大,
    • i=2,,pi=2,\cdots,p

二、主成分的性质

  • 主成分向量的协方差矩阵

V(y)=ΛV(y)=\Lambda

  • V(yi)=λiV(y_i)=\lambda_i
    • i=1,2,,pi=1,2,\cdots,p
    • y1,y2,...,ypy_1,y_2,...,y_p互不相关