矩阵分解与特征值

1. Cholesky分解

(1) LDU分解

A=(aij)A=(a_{ij})是n阶矩阵,则当且仅当AA的顺序主子式Δk0(k=1,2,...,n1)\Delta_k\neq0(k=1,2,...,n-1)时,AA可唯一的分解为A=LDUA=LDU,其中LL为单位下三角矩阵,UU为单位上三角矩阵,DD为对角阵。

证明:对矩阵AA做初等行变换变成一个上三角矩阵,其变换矩阵就是一个单位下三角矩阵,设PA=U1PA=U_1,令D=diag(d1,...,dn)D=diag(d_1,...,d_n),其中di,1ind_i,1\leq i\leq nU1U_1的对角线元素,则存在一个单位上三角阵UU使得U1=DUU_1=DU,令L=P1L=P^{-1}仍是一个单位下三角阵,即有A=LDUA=LDU

(2) Cholesky分解

A=(aij)A=(a_{ij})是n阶对称正定矩阵,则存在一个下三角矩阵GG,使得A=GGA=GG'

证明:AA是n阶对称正定矩阵,Δk>0(k=1,2,...,n)\Delta_k>0(k=1,2,...,n),有唯一的LDU分解A=LDUA=LDU,其中D=diag(d1,...,dn)D=diag(d_1,...,d_n)di>0(i=1,2,...,n)d_i>0(i=1,2,...,n)(事实上,di=ΔiΔi1d_i=\frac{\Delta_i}{\Delta_{i-1}}),令D~=diag(d1,...,dn)\tilde{D}=diag(\sqrt{d_1},...,\sqrt{d_n}),则有A=LD~2UA=L\tilde{D}^2U
A=AA'=A得,LD~2U=UD~2LL\tilde{D}^2U=U'\tilde{D}^2L'
再由分解的唯一性得:L=U,U=LL=U',U=L'
G=LD~G=L\tilde{D},则GG为下三角阵,且有A=LD~2L=(LD~)(LD~)=GGA=L\tilde{D}^2L'=(L\tilde{D})(L\tilde{D})'=GG'

(3) Cholesky分解的统计应用

对任意的k×1k\times1维向量μ\muk×kk\times k维对称正定矩阵VV,设VV有Cholesky分解V=GGV=GG',则可通过以下方式产生一个服从kk为正态分布N(μ,V)\mathcal{N}(\mu,V)kk维随机向量:ξ=μ+Lη\xi=\mu+L\eta,其中η\eta为服从标准正态分布的随机向量。

2. 特征值分解

对任意的n×nn\times n对称矩阵AAAA具有nn个线性无关的特征向量,则存在一个正交阵TT使得A=TDTA=TDT',其中D=diag(λ1,λ2,...,λn)D=diag(\lambda_1,\lambda_2,...,\lambda_n)λ1,λ2,...,λn\lambda_1,\lambda_2,...,\lambda_nAA的特征值。

证明:设AA的对应于{λ1,λ2,...,λn}\{\lambda_1,\lambda_2,...,\lambda_n\}nn个线性无关的单位特征向量{v1,v2,...,vn}\{v^1,v^2,...,v^n\},令T=[v1,v2,...,vn]T=[v^1,v^2,...,v^n],则TT为正交阵,
AT=[Av1,...,Avn]=[λv1,...,λvn]=[v1,...,vn]diag(λ1,λ2,...,λn)=Tdiag(λ1,λ2,...,λn)\begin{aligned} AT&=[Av^1,...,Av^n]\\&=[\lambda v^1,...,\lambda v_n]\\&=[v^1,...,v^n]diag(\lambda_1,\lambda_2,...,\lambda_n)\\&=Tdiag(\lambda_1,\lambda_2,...,\lambda_n) \end{aligned}

A=Tdiag(λ1,λ2,...,λn)T1=Tdiag(λ1,λ2,...,λn)TA=Tdiag(\lambda_1,\lambda_2,...,\lambda_n)T^{-1}=Tdiag(\lambda_1,\lambda_2,...,\lambda_n)T'

(1) 矩阵的幂次

对任意的非负定矩阵AA及数r[0,1]r\in[0,1],可定义Ar=Tdiag(λ1r,...,λnr)TA^r=Tdiag(\lambda_1^{r},...,\lambda_n^{r})T'。特别地,当r=1/2r=1/2时,D1/2=diag(λ11/2,...,λn1/2)D^{1/2}=diag(\lambda_1^{1/2},...,\lambda_n^{1/2}),称A1/2=TD1/2TA^{1/2}=TD^{1/2}T'为矩阵AA的平方根。

(i)(A1/2)2=A(A^{1/2})^2=A,记(A1)1/2(A^{-1})^{1/2}A1/2A^{-1/2},有A1/2=(A1/2)1A^{-1/2}=(A^{1/2})^{-1}
(ii)Lo¨wnerHeinzL\ddot{o}wner-Heinz不等式

对任意的满足AB0A\geq B\geq0的矩阵AABB,数r[0,1]r\in[0,1],有ArBrA^r\geq B^r

证明:
矩阵分解与特征值
矩阵分解与特征值

(iii)(simultaneously diagonalizable)设有nn阶矩阵AABB,若存在正交矩阵SS使得A=SDSA=SDS'B=SESB=SES',则称矩阵AABB可同时对角化。可对角化矩阵AABB可交换当且仅当AABB可同时对角化。

证明:假设AABB可同时对角化,即存在正交矩阵SS使得A=SDSA=SDS'B=SESB=SES'
AB=SDSSES=SDES=SEDS=SESSDS=BAAB=SDS'SES'=SDES'=SEDS'=SES'SDS'=BA
假设矩阵AABB可交换,设A=SDSA=SDS'B=TETB=TET',令B1=SASB1=S'AS,由AABB可交换推知DDB1B_1可交换,倘若说明DDB1B_1可同时对角化,则可推知AABB可同时对角化,因此不妨假设AA为对角阵。

B=[bij]B=[b_{ij}]λ1,λ2,...,λn\lambda_1,\lambda_2,...,\lambda_nAA的特征值,由AB=BAAB=BAλibij=bijλj\lambda_ib_{ij}=b_{ij}\lambda_j,即有(λiλj)bij=0(\lambda_i-\lambda_j)b_{ij}=0,进而推知当λiλj\lambda_i\neq\lambda_j时,bij=0b_{ij}=0。设AA具有如下分块形式:
A=[λ1I10...00λ2I2...0............00...λkIk]A=\left[\begin{matrix} \lambda_1I_1&0&...&0\\ 0&\lambda_2I_2&...&0\\ ...&...&...&...&\\ 0&0&...&\lambda_kI_k \end{matrix}\right]
相应的BB具有如下形式:
B=[B10...00B2...0............00...Bk]B=\left[\begin{matrix} B_1&0&...&0\\ 0&B_2&...&0\\ ...&...&...&...&\\ 0&0&...&B_k \end{matrix}\right]
由矩阵BB可对角化知存在正交阵TiT_i使得Bi=TiEiTB_i=T_iE_iT',令
T=[T10...00T2...0............00...Tk],E=[E10...00E2...0............00...Ek]T=\left[\begin{matrix} T_1&0&...&0\\ 0&T_2&...&0\\ ...&...&...&...&\\ 0&0&...&T_k \end{matrix}\right],E=\left[\begin{matrix} E_1&0&...&0\\ 0&E_2&...&0\\ ...&...&...&...&\\ 0&0&...&E_k \end{matrix}\right]
则有B=TETB=TET'A=TTA=TT',即AABB可同时对角化。

(2) 统计应用

对任意的k×1k\times1维向量μ\muk×kk\times k维对称正定矩阵VV,可通过以下方式产生一个服从kk为正态分布N(μ,V)\mathcal{N}(\mu,V)kk维随机向量:ξ=μ+V1/2η\xi=\mu+V^{1/2}\eta,其中η\eta为服从标准正态分布的随机向量。

3. 特征值

(1) 对任意正整数pp,矩阵ApA^p的特征值为λ1p,...,λnp\lambda_1^p,...,\lambda_n^p;因此当A0A\geq0时,λmax(Ap)={λmax(A)}p\lambda_{max}(A^p)=\{\lambda_{max}(A)\}^pλmin(Ap)={λmin(A)}p\lambda_{min}(A^p)=\{\lambda_{min}(A)\}^p

(2) tr(A)=λ1+...+λntr(A)=\lambda_1+...+\lambda_n

(3)A=λ1...λn|A|=\lambda_1...\lambda_n

证明:多项式λEA|\lambda E-A|的常数项为(1)nA(-1)^n|A|,而由多项式根与系数的关系知,多项式的常数项为(1)nλ1...λn(-1)^n\lambda_1...\lambda_n,故得证。

(4)乘积矩阵的特征值:

(i)矩阵AABB均为nn阶方阵:

AABB均为对称阵,则ABλE=(ABλE)=BAλE|AB-\lambda E|=|(AB-\lambda E)'|=|B'A'-\lambda E|,所以ABABBABA有相同的特征值;

AABB至少有一个矩阵可逆,不妨设AA可逆,则ABλE=A1ABλEA=A1(ABλE)A=BAλE|AB-\lambda E|=|A^{-1}||AB-\lambda E||A|=|A^{-1}(AB-\lambda E)A|=|BA-\lambda E|ABABBABA有相同的特征值;

AABB均不可逆,
矩阵分解与特征值
矩阵分解与特征值
所以λEAB=λEBA|\lambda E-AB|=|\lambda E-BA|ABABBABA有相同的特征值;

(ii)矩阵AABB均不是方阵,设AAm×nm\times n阶矩阵,BBn×mn\times m阶矩阵:
矩阵分解与特征值
(5)(Weyl’s perturbation theorem)设对称矩阵AABB的特征值分别为λ1...λk\lambda_1\geq...\geq\lambda_kμ1...μk\mu_1\geq...\geq\mu_k,则有:
max1ikλiμiAB\max_{1\leq i\leq k}|\lambda_i-\mu_i|\leq||A-B||

Weyl’s perturbation theorem的一个应用:

设有对称矩阵序列AnA_n满足AnA0,n||A_n-A||\rightarrow0,n\rightarrow\infty,其中AA为对称阵,则当nn\rightarrow\infty时,AnA_n的特征值趋于AA的特征值。