您的位置: 首页 > 文章 > 7 主成分分析

7 主成分分析

分类: 文章 • 2024-05-22 08:34:28

文章目录

7.1 引言
7.2 总体的主成分

一、主成分的定义及导出
二、主成分的性质

7.1 引言

数据分析时,涉及(间隔)变量多,带复杂
这些变量间常存在一定、有时甚至相当高的相关
- 使观测数据中的信息一定程度重叠
正是变量间信息重叠,使变量降维可能

pca由Pearson,01,后霍特林33
降维把多个变量 $\to$ 少数几个主成分(综合变量)
主成分能反映原始变量大部分信息
- 常为原始变量某种线性组合
为有效降维,应使这些主成分所含的信息(线性意义)不重叠
- 即互不相关
pca用较少的不相关(综合)变量代替大量相关变量的统计降维法

主成分的应用分两
用前少数几个主成分替代众原始变量以作分析
- 主成分本身就成了分析的目标
- 它们要能够派用处,其大致的含义必须明白
- 也就是需要给出这前几个主成分一个符合实际背景和意义的解释
更多的另一些中,主成分只是要达到目标的中间结果(或步骤),而非目标本身
- 将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性和寻找异常值
- 通过方差接近于零的主成分
  - 发现原始变量间的多重共线性关系
- 此时主成分不必给出解释

(间隔)变量个数 $p=2$
n样品,都测两变量 $(x_1,x_2)$
分布在椭圆
$x_1Ox_2$ 中,点坐标 $x_1$ 和 $x_2$ 呈现线性相关
坐标系逆时针 $\theta$ 变成新, $y_1$ 是椭圆长轴, $y_2$ 短轴

7 主成分分析

点在新系下坐标 $y_1$ 和 $y_2$ 不相关
$y_1$ 上方差最大,此方向上 $n$ 样品间差异的信息最多
若欲将二维空间的点投影到某方向
- 则选 $y_1$ 轴能使信息损失降到最小
- 称 $y_1$ 为第一主成分。
而与 $y_1$ 正交的 $y_2$ 上,有较小方差,称 $y_2$ 为第二主成分。
图中,第一主成分效果与椭圆形状有关
- 越扁( $x_1$ 和 $x_2$ 越相关),n个点在 $y_1$ 上方差越大(同时 $y_2$ 上方差就越小),用第一主成分代替二维空间所造成的信息损失也越小
变圆,第一主成分只含二维空间点一半信息
- 仅用这一个主成分,则损失50%信息
- 原因是,原始变量 $x_1$ 和 $x_2$ 的相关程度几乎零
- $x_1$ 和 $x_2$ 所含信息几乎不重叠,无法用一维的综合变量来代替
扁到成轴上一条线
- 第一主成分含二维空间点100%信息
- 仅用这一个主成分代替原始二维变量不会有信息损失

7.2 总体的主成分

一、主成分的定义及导出

$\pmb{x}$ 为 $p$ 维随机向量
假定二阶矩存在
$\pmb{\mu}=E(\pmb{x})$
- $\pmb{\Sigma}=V(\pmb{x})$
如下线性变换

7 主成分分析

$y_1,y_2,\cdots,y_p$ 在本章有特定的含义。
先用一个变量来代表原始 $p$ 个
- 为使 $y_1$ 在一切线性组合中最具代表性,
  - 应使其方差最大,以最大保留这组变量的方差和协方差结构的信息
- $V(ka_1'\pmb{x})=k^2V(a_1'\pmb{x})$ ,如不对 $\pmb{a_1}$ 限制,方差最大就没意义
限制 $a_1$ 为单位,希在此约束下寻向量 $\pmb{a}_1$
使 $V(y_1)=a_1'\Sigma a_1$ 最大,
- 称第一主成分

$\Sigma$ 特征值
- $\lambda_1\ge\cdots\ge\lambda_r>\lambda_{r+1}=\cdots=\lambda_{p}=0$
- 正交特征向量 $t_1,t_2,\cdots,t_p$
(1.8.3)式知,
当 $a_1=t_1$ 时,达到最大
- $y_1=t_1'x$ 就是第一主成分

若第一主成分信息不够,不足代表原始的 $p$ 个变量
则再考虑使用 $y_2$
为使 $y_2$ 所含信息与 $y_1$ 不重叠,应要求

$Cov(y_1,y_2)=0$

在上式和约束 $||a_2||=1$ 下寻 $a_2$
- 使 $V(Y_2)=a_2'\Sigma a_2$ 最大,求的 $y_2$ 称第二主成分
$x$ 的第 $i$ 主成分 $y_i=a_i'x$ 指,
- 在约東

7 主成分分析

下寻 $a_i$ 使 $V(y_i)=a_i'\Sigma a_i$ 达最大,
- $i=2,\cdots,p$

二、主成分的性质

主成分向量的协方差矩阵

$V(y)=\Lambda$

即 $V(y_i)=\lambda_i$
- $i=1,2,\cdots,p$
- 且 $y_1,y_2,...,y_p$ 互不相关