线性代数之——对角化和 A 的幂

利用特征向量的属性,矩阵 AA 可以变成一个对角化矩阵 Λ\Lambda

1. 对角化

假设一个 n×nn×n 的矩阵 AAnn 个线性不相关的特征向量 x1, ,xnx_1,\cdots,x_n ,把它们作为特征向量矩阵 SS 的列,那么就有 S1AS=ΛS^{-1}AS=\Lambda

线性代数之——对角化和 A 的幂

矩阵 AA 被对角化了,因为所有的特征向量位于矩阵 Λ\Lambda的对角线上。

证明过程也很简单,首先我们计算 ASAS

线性代数之——对角化和 A 的幂

一个技巧就是将 ASAS 分解成 SΛS\Lambda

线性代数之——对角化和 A 的幂

所以我们有

AS=SΛS1AS=ΛA=SΛS1AS=S\Lambda \quad S^{-1}AS=\Lambda \quad A=S\Lambda S^{-1}

矩阵 SS 有逆矩阵,因为我们假设它的列是 nn 个线性不相关的特征向量。如果没有 nn 个线性不相关的特征向量,我们就不能进行对角化。

线性代数之——对角化和 A 的幂

A=SΛS1A=S\Lambda S^{-1} 可得,A2=SΛS1SΛS1=SΛ2S1A^2=S\Lambda S^{-1}S\Lambda S^{-1} = S\Lambda^2 S^{-1},平方后我们得到**SS 中相同的特征向量和 Λ\Lambda 中平方的特征值**。同理,我们可以得到 kk 次方为 Ak=SΛkS1A^k=S\Lambda^k S^{-1}

线性代数之——对角化和 A 的幂

k=1k=1 时,我们得到 AA.当 k=0k=0 时,我们得到 A0=IA^0=I。当 k=1k=-1 时,我们得到 A1A^{-1}

再继续往下进行之前,有几点需要我们注意。

  • 如果特征值 λ1, ,λn\lambda_1,\cdots,\lambda_n 全部都不相同,那么自动地特征向量 x1, ,xnx_1,\cdots,x_n 就是线性不相关的。任意没有重复特征值的矩阵都可以被对角化。

证明:

假设 c1x1++cnxn=0c_1x_1 + \cdots+c_nx_n = 0,我们乘以矩阵 AA,有

(1)c1λ1x1++cnλnxn=0\tag{1} c_1\lambda_1x_1 + \cdots+c_n\lambda_nx_n = 0

然后,乘以 λn\lambda_{n} 并减去上面的式子 (1),有

(2)c1λnx1++cnλnxn=0\tag{2} c_1\lambda_{n}x_1 + \cdots+c_n\lambda_{n}x_n = 0

(3)c1(λnλ1)x1++cn1(λnλ1)xn1=0\tag{3} c_1(\lambda_{n}-\lambda_1)x_1 + \cdots+c_{n-1}(\lambda_{n}-\lambda_1)x_{n-1} = 0

这会消去 xnx_n,我们继续用 (3) 式分别乘以 AAλn1\lambda_{n-1},再相减, xn1x_{n-1} 就也被消去了。一直重复这个过程,最后,我们就只剩下了 x1x_1

(4)c1(λnλ1)(λn1λ1)(λ2λ1)x1=0\tag{4} c_1(\lambda_{n}-\lambda_1)(\lambda_{n-1}-\lambda_1)\cdots(\lambda_{2}-\lambda_1)x_1= 0

因为特征值互不相同,因此有 c1=0c_1 = 0,同理我们可得所有的系数都为 0,也即零空间只有零向量,所以这些特征向量是线性不相关的。

  • 特征向量乘以任意非零常数后,Ax=λxAx = \lambda x 仍然成立。

  • 特征向量在 SS 中的顺序和特征值在 Λ\Lambda 中的顺序是一样的,也就是特征向量和特征值必须一一对应。

在上面的例子中,如果我们互换特征向量的顺序,那么 Λ\Lambda 中特征值的顺序也要相应改变。

线性代数之——对角化和 A 的幂

  • 一些矩阵没有足够的特征向量,因此不能被对角化,特别是注意有重复特征值的情况。

线性代数之——对角化和 A 的幂

而且要注意,可逆性和可对角化性之间没有联系。可逆性和是否存在零特征值有关,而可对角化性和是否有足够的特征向量有关

2. 斐波那契数列

斐波那契序列满足 Fk+2=Fk+1+FkF_{k+2} = F_{k+1} + F_{k}。为了找到 F100F_{100},我们可以从 F2F_{2} 开始,每次求出一个新的值,直至得到 F100F_{100}。线性代数则给出了一个更好的方法,我们将之转化为 uk+1=Auku_{k+1}=Au_k 的问题。

线性代数之——对角化和 A 的幂

每一次我们都乘以矩阵 AA,100 次后我们就得到了 u100=A100u0u_{100}=A^{100}u_0

线性代数之——对角化和 A 的幂

这样,我们就可以利用特征值来求解了。

线性代数之——对角化和 A 的幂

求解特征方程,我们可以得到两个特征值分别为:

线性代数之——对角化和 A 的幂

进而得到两个特征向量分别为:

x1=[λ11]x2=[λ21]x_1 = \begin{bmatrix}\lambda_1\\ 1\end{bmatrix} \quad x_2 = \begin{bmatrix}\lambda_2\\ 1\end{bmatrix}

然后我们将 u0u_0 表示为特征向量的线性组合。

线性代数之——对角化和 A 的幂

那么就有

u100=A100u0=1λ1λ2A100(x1x2)=λ1100x1λ2100x2λ1λ2u_{100}=A^{100}u_0 = \frac{1}{\lambda_1 - \lambda_2}A^{100}(x_1-x_2) = \frac{\lambda_1^{100}x_1 - \lambda_2^{100}x_2}{\lambda_1 - \lambda_2}

线性代数之——对角化和 A 的幂

上式中的第二项底数小于 0.5,因此会渐渐趋向于 0,也就是说随着 nn 增大逐渐只有第一项有效。

F101F1001+521.618\frac{F_{101}}{F_{100}} \approx \frac{1+\sqrt{5}}{2}\approx 1.618

这个数字就是我们众所周知的黄金比例。

3. AA 的幂

斐波那契数列是一个典型的差分方程,每一步我们都乘以矩阵 AA。下面我们来看一下对角化是怎么来快速计算 AkA^k 的。

Aku0=(SΛS1)(SΛS1)u0=SΛkS1u0A^k u_0= (S\Lambda S^{-1})\cdots(S\Lambda S^{-1})u_0 = S\Lambda^{k} S^{-1}u_0

然后我们将 u0u_0 表示为特征向量的线性组合

  • u0=c1x1++cnxnu0=Scc=S1u0u_0 = c_1x_1+\cdots+c_nx_n \to u_0=Sc \to c = S^{-1}u_0

  • Au0=c1Ax1++cnAxn=c1λ1x1++cnλnxnAu_0 = c_1Ax_1+\cdots+c_nAx_n =c_1\lambda_1x_1+\cdots+c_n\lambda_nx_n

  • Aku0=c1λ1kx1++cnλnkxn=SΛkcA^ku_0 = c_1\lambda_1^kx_1+\cdots+c_n\lambda_n^kx_n = S\Lambda^kc

线性代数之——对角化和 A 的幂

4. 不可对角化矩阵

特征值 λ\lambda 可能会有重复情况,这时候我们想知道它的重复度(multiplicity),有两种方法来计量。

  • 几何重数(Geometric Multiplicity)与特征值 λ\lambda 对应的线性不相关的特征向量的个数
  • 代数重数(Algebraic Multiplicity)特征值 λ\lambda 的重复次数,也就是 det(AλI)det(A-\lambda I) 的重根数

几何重数小于等于代数重数。

线性代数之——对角化和 A 的幂

几何重数小于代数重数说明特征向量数量不够,也就是说 AA 不能被对角化。

5. ABABA+BA+B 的特征值

让我们来猜一猜 ABAB 的特征值是多少?

你可能会说是它们各自特征值的积。

ABx=Aβx=βAx=βλxABx = A\beta x = \beta Ax=\beta\lambda x

但是,通常情况下 AABB 的特征向量是不相同的,因此上面的证明是错误的。同样,两个矩阵各自特征值的和也通常不是两个矩阵和的特征值。

但是,如果 xx 同时是 AABB 的特征向量。那么有

ABx=λβx=BAxAB=BAABx = \lambda\beta x = BAx \to AB = BA

因此,如果 AABB 都可以被对角化,它们拥有相同的特征向量当且仅当 AB=BAAB=BA

获取更多精彩,请关注「seniusen」!
线性代数之——对角化和 A 的幂