PCA的推导有两个方向,一种是极大化投影后数据的方差(信息),另一种是极小化投影的均方误差。
极大化投影后方差
直观来讲,数据一开始就含有一定数量的方差/信息 ,在这个思路下,我们希望找到一些方向,使得把数据往这些方向投影后,能最大限度地保留原有信息(方差),又能比原数据稍显精简。


图上这两个方向,很明显u1比u2保存了更多信息,数据点的方差更大,u1就是我们更想要的。
在继续推导之前,先引入一个定理:
单位球面上点的二次型的极大化(《实用多元统计分析》p62)
令Bp×p是正定矩阵,特征值为λ1≥λ2≥⋯≥λp≥0,对应特征向量为e1,e2,⋯,ep,则
x=0maxx′xx′Bx=λ1,(x=e1)
x=0minx′xx′Bx=λp,(x=ep)
x⊥e1,⋯,ekmaxx′xx′Bx=λk+1,(x=ek+1)
下面回到PCA,以二维为例,PCA想要做的,就是找到一个单位向量u,使各数据点xi在u1上的投影xiTu达到最大
maxm1i=1∑m(xiTu)2=m1i=1∑muTxixiTu=uT(m1i=1∑mxixiT)u=uTΣu
其中Σ为协方差阵。这个形式是不是和上面定理中一模一样(u为单位向量,u′u=∥u∥2=1)?
所以由定理,我们可以直接知道,选取u=e1是,上式得到最大化,值为λ1。
另一种推导方法是用拉格朗日乘子法,我们想要
maxuTΣu,subject to u′u=1
将其改写为拉格朗日乘子的形式
L=uTΣu−λ(u′u−1)∂u∂L=2Σu−λ(2u)=0⇒Σu=λu
这就意味着u是Σ对应特征值为λ的特征向量,λ最大可以取成λ1。