矩阵论(零):线性代数基础知识整理(5)——特征值与相似

本篇博客的上篇是矩阵论(零):线性代数基础知识整理(4)——线性空间与线性变换,梳理了线性空间与线性变换的相关内容。本文主要整理矩阵的特征值与相似的相关内容。

  • 方阵的特征值
    • 特征值的定义及性质
    • 特殊矩阵的特征值与特征向量(对角矩阵、上(下)三角矩阵、酋矩阵、分块矩阵)
    • AAATA^TAHA^H的特征值的关系
    • AHAA^HAAAHAA^H的特征值的关系(推广:ABABBABA的特征值的关系)
  • 相似变换与相似对角化
    • 相似矩阵的定义及性质
    • Sylvester定理
    • 相似对角化的定义及其充要条件
    • 相似对角化的一个应用:求解斐波那契数列的通项

在某些教材上,讨论在某一数域F下n级矩阵的特征值时,规定特征值必须是数域F中的数。例如,在实数域下讨论n级矩阵的特征值,则特征值一定都是实数,若某实矩阵没有实的特征值,就说该矩阵在实数域下没有特征值。这样做是严谨的,但并不是说没有这样做的教材就是不严谨的。实际上,很多教材在讨论特征值时,都默认是在复数域下讨论。在复数域下,n级矩阵恰好有n个特征值,这是由于复数域是代数封闭的域,而实数域、有理数域都不是代数封闭域,所以一个有理数矩阵不一定有有理数特征值。
本文遵循这样的约定:即使你拿一个有理数矩阵AQn×nA\in Q^{n\times n},我们也说AA恰好有n个特征值,这是因为我们只在复数域下讨论特征值,这样有理数矩阵AA就被视作复数域下的一个矩阵。在讨论特征值时,任意数域F下的矩阵都被视作是复数域中的矩阵。


矩阵的特征值

  • 定义:设ACn×nA\in C^{n\times n},若λC,xCn,x0\exists{\lambda}\in{C},x\in{C^n},x\neq{0}使得Ax=λxAx=\lambda{x},或者等价地(λIA)x=0(\lambda{I}-A)x=0,则称λ\lambda是A的一个特征值,xx是A的对应于λ\lambda的一个特征向量

  • 定义:(特征值的集合)设ACn×nA\in C^{n\times n},用σ(A)\sigma (A)表示AA的所有特征值的集合

  • 定理:λ\lambda是n阶方阵A的特征值的充要条件为det(λIA)=0det(\lambda{}I-A)=0
    证:
    由特征值的定义,λ\lambda是n阶方阵A的特征值的充要条件为齐次线性方程组(λIA)x=0(\lambda{I}-A)x=0有非零解,而有非零解的充要条件为系数矩阵λIA\lambda{I}-A不可逆,从而充要条件为det(λIA)=0det(\lambda{}I-A)=0
    【注】det(λIA)=0det(\lambda{}I-A)=0是关于λ\lambda的一元n次方程,这个定理揭示了特征值与一元n次方程的关系。在复数域下,一元n次方程方程恰好有n个根(重根按重数算),因此n阶方阵有n个特征值(重特征值按重数算)。

  • 定义:det(λIA)=0det(\lambda{}I-A)=0称为A的特征方程;关于λ\lambda的一元n次多项式det(λIA)det(\lambda{}I-A)称为A的特征多项式;若λ\lambda是A的特征值,则齐次线性方程组(λIA)x=0(\lambda{I}-A)x=0的解空间(也就是系数矩阵λIA\lambda I-A的零空间N(λIA)N(\lambda I-A))称为λ\lambda的特征子空间
    【注】关于矩阵特征多项式的展开式,请参考矩阵论(补充知识):特征多项式的展开式

  • 定义:若方阵A的特征值λ\lambda是A的特征方程的k重根,则称k是λ\lambda的代数重数;λ\lambda对应的特征子空间的维数称为λ\lambda的几何重数

  • 定理:n阶方阵A的全部不同特征值的代数重数之和为n
    证:
    由复数域的代数封闭性以及代数重数的定义可得。

  • 定理:方阵A的任意特征值的几何重数小于等于代数重数
    证:
    法1:利用基的扩充和相似(相似矩阵的内容见后文)
    λ\lambdaAA的一个特征值,λ\lambda对应的特征子空间N(λIA)N(\lambda I-A)的维数为s,即λ\lambda的几何重数为s。取N(λIA)N(\lambda I-A)的一组基x1,x2,...,xsx_1,x_2,...,x_s,由扩充定理知可将它扩充为CnC^n的一组基x1,x2,...,xnx_1,x_2,...,x_n。令P=[x1x2xn]P=\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix},则PP为可逆矩阵,由P1P=IP^{-1}P=I并根据分块矩阵乘法可得P1[x1x2xs]=[IsO]P^{-1}\begin{bmatrix}x_1&x_2&\cdots&x_s\end{bmatrix}=\begin{bmatrix}I_s\\O\end{bmatrix}。令B=P1APB=P^{-1}AP,则B=P1[Ax1Axs]=P1[λx1λxs]=[λP1[x1x2xs]]=[λIsO]\begin{aligned}B&=P^{-1}\begin{bmatrix}Ax_1&\cdots&Ax_s&*\end{bmatrix}\\&=P^{-1}\begin{bmatrix}\lambda x_1&\cdots&\lambda x_s&*\end{bmatrix}\\&=\begin{bmatrix}\lambda P^{-1}\begin{bmatrix}x_1&x_2&\cdots&x_s\end{bmatrix}&*\end{bmatrix}\\&=\begin{bmatrix}\lambda I_s&*\\O&*\end{bmatrix}\end{aligned}通过对上面这个分块矩阵的特征多项式进行拉普拉斯展开就得知,λ\lambdaBB的特征值且其代数重数至少为ss。因为BBAA相似,故BB的特征值λ\lambda的代数重数与AA的特征值λ\lambda的代数重数相等,故AA的特征值λ\lambda的代数重数不小于ss,即不小于其几何重数。得证。
    法2:利用矩阵分解(schur分解,具体证明见矩阵论(二):矩阵分解—从Schur分解、特征值分解EVD到奇异值分解SVD

  • 定理:设ACn×nA\in C^{n\times n}的n个特征值分别为λ1,λ2,...,λn\lambda_1,\lambda_2,...,\lambda_n,则μI+A,μC\mu I+A,\mu\in C的n个特征值为μ+λ1,μ+λ2,...,μ+λn\mu+\lambda_1,\mu+\lambda_2,...,\mu+\lambda_n
    证:
    μI+A\mu I+A的特征多项式为det(λI(μI+A))=det((λμ)IA)det(\lambda I-(\mu I+A))=det((\lambda-\mu)I-A),由已知特征方程det(λIA)det(\lambda I-A)的n个根为λ1,λ2,...,λn\lambda_1,\lambda_2,...,\lambda_n,显然特征方程det((λμ)IA)=0det((\lambda-\mu)I-A)=0的n个根为μ+λ1,μ+λ2,...,μ+λn\mu+\lambda_1,\mu+\lambda_2,...,\mu+\lambda_n,得证。
    【注】该结论是一个比较明显的结论,也十分常用。注意,结论蕴含着“若λi\lambda_iAAkk重特征值(此处指代数重数),则μ+λi\mu+\lambda_iμI+A\mu I+Akk重特征值”。

  • 定理:设λ1,λ2,,λs\lambda{}_1,\lambda{}_2,\cdots,\lambda{}_s是A的互不相同的特征值,xi1,xi2,,xijix_{i1},x_{i2},\cdots,x_{ij_i}是A关于λi\lambda{}_i的线性无关的特征向量,则x11,,x1j1,x21,,x2j2,,xs1,,xsjsx_{11},\cdots,x_{1j_1},x_{21},\cdots,x_{2j_2},\cdots,x_{s1},\cdots,x_{sj_s}是线性无关的
    证明:(数学归纳法)
    当s=1时,显然命题成立。
    假设当s=i时,命题成立,则当s=i+1时,设k11x11++k1j1x1j1+k21x21++k2j2x2j2++ks1xs1++ksjsxsjs=0k_{11}x_{11}+\cdots+k_{1j_1}x_{1j_1}+k_{21}x_{21}+\cdots+k_{2j_2}x_{2j_2}+\cdots\\+k_{s1}x_{s1}+\cdots+k_{sj_s}x_{sj_s}=0
    用A左乘两端并整理得:λ1(k11x11++k1j1x1j1)++λs(ks1xs1++ksjsxsjs)=0\lambda{}_1(k_{11}x_{11}+\cdots+k_{1j_1}x_{1j_1})+\cdots+\lambda{}_s(k_{s1}x_{s1}+\cdots+k_{sj_s}x_{sj_s})=0由以上两式消去ks1xs1++ksjsxsjsk_{s1}x_{s1}+\cdots+k_{sj_s}x_{sj_s}(λsλ1)(k11x11++k1j1x1j1)++(λsλs1)(k(s1)1x(s1)1++k(s1)js1x(s1)js1)=0\begin{aligned}(\lambda{}_s-\lambda{}_1)(k_{11}x_{11}+\cdots+k_{1j_1}x_{1j_1})+\cdots+\\(\lambda{}_s-\lambda{}_{s-1})(k_{(s-1)1}x_{(s-1)1}+\cdots+k_{(s-1)j_{s-1}}x_{(s-1)j_{s-1}})=0\end{aligned}由特征值互不相等及假设知k11==k1j1==k(s1)1==k(s1)js1=0k_{11}=\cdots=k_{1j_1}=\cdots=k_{(s-1)1}=\cdots=k_{(s-1) j_{s-1}}=0ks1xs1++ksjsxsjs=0k_{s1}x_{s1}+\cdots+k_{sj_s}x_{sj_s}=0,由题设知ks1==ksjs=0k_{s1}=\cdots=k_{sj_s}=0,故命题对s=i+1时也成立。故由归纳假设,原命题成立。得证。

  • 特征值与迹、行列式的关系
    (注意,以下结论通过特征多项式的展开式可以得到)
    设n阶方阵A的特征值是λ1,λ2,,λn\lambda{}_1,\lambda{}_2,\cdots,\lambda{}_n(重特征值按重数算),则

    • det(A)=λ1λ2λndet(A)=\lambda{}_1\lambda{}_2\cdots\lambda{}_n
    • tr(A)=λ1+λ2++λntr(A)=\lambda{}_1+\lambda{}_2+\cdots+\lambda{}_n
  • 特殊矩阵的特征值与特征向量

    • λ\lambda是对角矩阵A的特征值的充要条件为λ\lambda在A的主对角线上,且A的每个特征值的代数重数等于其在主对角线上出现的次数
    • λ\lambda是上(下)三角矩阵A的特征值的充要条件为λ\lambda在A的主对角线上,且A的每个特征值的代数重数等于其在主对角线上出现的次数
    • 酋矩阵的特征值的模长都是1
      证明:
      设U是一个酋矩阵,λ\lambda是U的一个特征值,Ux=λx,x0Ux=\lambda x,x\neq 0,则(Ux)H(Ux)=(λx)H(λx)(Ux)^H(Ux)=(\lambda x)^H(\lambda x),即xHUHUx=xHx=λ2xHxx^HU^HUx=x^Hx=|\lambda|^2x^Hx,因为x0x\neq 0所以xHx>0x^Hx>0,所以λ2=1|\lambda|^2=1,即λ=1|\lambda|=1
    • n阶对角矩阵A有n个线性无关的特征向量
      证明:
      A=diag(a1,a2,...,an)A=diag(a_1,a_2,...,a_n)In=[e1e2en]I_n=\begin{bmatrix}e_1&e_2&\cdots&e_n\end{bmatrix}nn阶单位矩阵。计算可得任意i=1,2,...,ni=1,2,...,nAei=aieiAe_i=a_ie_i,由于ei0e_i\neq 0,故eie_iAA的特征向量。这就证明了单位矩阵InI_n的列向量均为AA的特征向量,由于单位矩阵InI_n的列向量组是线性无关的,故A有n个线性无关的特征向量。
    • 分块矩阵的特征值
      ACm×m,BCn×nA\in C^{m\times m},B\in C^{n\times n}AA的m个特征值依次为λ1,λ2,,λm\lambda_1,\lambda_2,\cdots,\lambda_mBB的n个特征值依次为λm+1,λm+2,,λm+n\lambda_{m+1},\lambda_{m+2},\cdots,\lambda_{m+n},则分块矩阵[AOB]\begin{bmatrix}A&*\\O&B\end{bmatrix}[AOB]\begin{bmatrix}A&O\\*&B\end{bmatrix}m+nm+n个特征值依次为λ1,λ2,,λm+n\lambda_1,\lambda_2,\cdots,\lambda_{m+n}
      证:(以[AOB]\begin{bmatrix}A&*\\O&B\end{bmatrix}为例)
      根据拉普拉斯展开式计算上述分块矩阵的特征多项式:det(λIm+n[AOB])=det[λImAOλInB]=det(λImA)det(λInB)det\left(\lambda I_{m+n}-\begin{bmatrix}A&*\\O&B\end{bmatrix}\right)=det\begin{bmatrix}\lambda I_m-A&*\\O&\lambda I_n-B\end{bmatrix}\\=det(\lambda I_m-A)det(\lambda I_n-B)可见特征方程的根为λ1,λ2,,λm+n\lambda_1,\lambda_2,\cdots,\lambda_{m+n},证毕。
  • A,AT,AHA,A^T,A^H的特征值的关系
    只要找到A,AT,AHA,A^T,A^H的特征多项式的关系,就能得到下面两个结论,读者自证不难^_^。

    • σ(A)=σ(AT)\sigma(A)=\sigma(A^T)AAATA^T的同一特征值的代数重数相等
    • AAAHA^H的特征值互为共轭且AA的特征值λ\lambda的代数重数与AHA^H的特征值λˉ\bar\lambda的代数重数相等
  • AAHAA^HAHAA^HA的特征值的关系(注意AAHAA^HAHAA^HA的阶数不一定相同)

    • AAHAA^HAHAA^HA的特征值均为非负实数
      证明:
      考虑特征方程AAHx=λxAA^Hx=\lambda{x},用xHx^H左乘两端得xHAAHx=(AHx)H(AHx)=λxHxx^HAA^Hx=(A^Hx)^H(A^Hx)=\lambda{}x^Hx,即AHx2=λx2||A^Hx||^2=\lambda{}||x||^2,故AAHAA^H的特征值均为非负实数。同理可证AHAA^HA的特征值均为非负实数。
    • σ(AHA){0}=σ(AAH){0}\sigma (A^HA)-\{0\}=\sigma (AA^H)-\{0\}(即AAHAA^HAHAA^HA有相同的非零特征值)
      证明:
      考虑AAHAA^H的特征方程AAHx=λx,λ0,x0AA^Hx=\lambda{}x,\lambda{}\neq0,x\neq0,设y=AHxy=A^Hx,由AHx2=λx2||A^Hx||^2=\lambda{}||x||^2AHx>0||A^Hx||\gt0,故y0y\neq0。用AHA^H左乘AAHx=λxAA^Hx=\lambda{x}两端得AHAy=λyA^HAy=\lambda{y},可见λ\lambda也是AHAA^HA的特征值。同理可证AHAA^HA的非零特征值都是AAHAA^H的特征值。得证。
      【推广】设ACm×nA\in C^{m\times n},BCn×mB\in C^{n\times m},则σ(AB){0}=σ(BA){0}\sigma (AB)-\{0\}=\sigma (BA)-\{0\}
      证:
      ABx=λxABx=\lambda x,其中λ0,x0\lambda \neq 0,x\neq 0,则有Bx0Bx\neq 0(若Bx=0Bx=0,则λx=ABx=0\lambda x=ABx=0λ0,x0\lambda \neq 0,x\neq 0矛盾)。用BB左乘式的两端,得B(ABx)=BA(Bx)=B(λx)=λ(Bx)B(ABx)=BA(Bx)=B(\lambda x)=\lambda (Bx),故λ\lambdaBABA的一个特征值。同理可证BABA的非零特征值都是ABAB的特征值。
      【注】实际上有更强的结论:不但ABABBABA有相同的非零特征值,而且ABABBABA的同一非零特征值的代数重数也是相等的,证明详见后文的Sylvester定理。
    • AAHAA^HAHAA^HA的同一个非零特征值的几何重数相等
      证明:
      该结论实际上可推广为ABABBABA的同一非零特征值的几何重数相等,下面证明推广后的结论。
      【推广】设ACm×nA\in C^{m\times n},BCn×mB\in C^{n\times m},则ABABBABA的同一非零特征值的几何重数相等
      证:
      λ\lambda{}ABABBABA的一个非零特征值,ABAB的特征子空间N(λIAB)N(\lambda I-AB)的维数为ss。取N(λIAB)N(\lambda I-AB)的一组基x1,x2,,xsx_1,x_2,\cdots,x_s,则易验证Bx1,Bx2,,BxsBx_1,Bx_2,\cdots,Bx_s都是BABA关于λ\lambda的特征向量,有Bx1,Bx2,,BxsN(λIBA)Bx_1,Bx_2,\cdots,Bx_s\in N(\lambda I-BA)。设k1Bx1++ksBxs=0k_1Bx_1+\cdots+k_sBx_s=0,用AA左乘该式两端得λ(k1x1++ksxs)=0\lambda{}(k_1x_1+\cdots+k_sx_s)=0,由于λ0\lambda{}\neq0,所以k1x1++ksxs=0k_1x_1+\cdots+k_sx_s=0,由于x1,x2,,xsx_1,x_2,\cdots,x_s线性无关,故k1==ks=0k_1=\cdots=k_s=0,故Bx1,Bx2,,BxsBx_1,Bx_2,\cdots,Bx_s是线性无关的。这说明dimN(λIBA)s=dimN(λIAB)\dim N(\lambda I-BA)\geqslant s=\dim N(\lambda I-AB)。同理可证dimN(λIAB)dimN(λIBA)\dim N(\lambda I-AB)\geqslant \dim N(\lambda I-BA)。故dimN(λIAB)=dimN(λIBA)\dim N(\lambda I-AB)=\dim N(\lambda I-BA),得证。
    • AAHAA^HAHAA^HA的同一个非零特征值的代数重数相等
      证明:由后文Sylvester定理直接可得。

    【注】以上结论都限定在特征值非零的情况下,这是因为可能AAHAA^HAHAA^HA两者中一个有零特征值,而另一个没有零特征值。例如,设A是m×nm\times{n}矩阵,当m>nm>n且A列满秩时,容易证明0一定是AAHAA^H的一个特征值,而一定不是AHAA^HA的一个特征值。

补充一个与特征值相关的概念:谱半径。谱半径在计算数学中有重要应用。

  • 定义:设ACn×nA\in C^{n\times n}λ1,λ2,,λn\lambda_1,\lambda_2,\cdots,\lambda_nAA的全部特征值,则称ρ(A)=maxλi\rho(A)=\max|\lambda_i|AA的谱半径

相似变换与相似对角化

相似矩阵及其性质

  • 定义:设A、B均为n阶方阵,若存在可逆矩阵P使得P1AP=BP^{-1}AP=B,则称A和B相似;如果P是一个酋矩阵,则称A和B酋相似
  • 若n阶方阵A和B相似,则有以下结论:
    • r(A)=r(B)r(A)=r(B)
    • det(A)=det(B)det(A)=det(B)
    • tr(A)=tr(B)tr(A)=tr(B)
    • σ(A)=σ(B)\sigma(A)=\sigma(B)
    • A和B的同一特征值的代数重数相等
    • A和B的同一特征值的几何重数相等
      第4、5条的证明:
      det(λIB)=det(λIP1AP)=det(P1(λIA)P)=det(P1)det(λIA)det(P)=det(λIA)det(\lambda{I}-B)=det(\lambda{I}-P^{-1}AP)=det(P^{-1}(\lambda{I}-A)P)\\=det(P^{-1})det(\lambda{I}-A)det(P)=det(\lambda{I}-A)即A和B的特征多项式相同,从而有σ(A)=σ(B)\sigma(A)=\sigma(B)以及代数重数相等的结论。
      第6条的证明:
      r(λIB)=r(λIP1AP)=r(P1(λIA)P)=r(λIA)r(\lambda{I}-B)=r(\lambda{I}-P^{-1}AP)\\=r(P^{-1}(\lambda{I}-A)P)=r(\lambda{I}-A)(λIA)x=0(\lambda{I}-A)x=0(λIB)x=0(\lambda{I}-B)x=0的基础解系解向量个数相同(均为nr(λIA)n-r(\lambda{I}-A)),从而dimN(λIA)=dimN(λIB)\dim N(\lambda{I}-A)=\dim N(\lambda{I}-B),得证。
  • Sylvester定理(矩阵ABABBABA的特征多项式之间的关系)
    矩阵论(零):线性代数基础知识整理(5)——特征值与相似
    【注1】图中的证明隐式地运用了多项式的因式分解定理(为了得到最终的行列式等式)。实际上,前面我们证明了相似矩阵的特征多项式相同,也可以用这一结论得到最终的行列式等式:
    由于[BAOAO]\begin{bmatrix}BA&O\\A&O\end{bmatrix}[OOAAB]\begin{bmatrix}O&O\\A&AB\end{bmatrix}相似,故det(λIm+n[BAOAO])=det(λIm+n[OOAAB])det\left(\lambda I_{m+n}-\begin{bmatrix}BA&O\\A&O\end{bmatrix}\right)=det\left(\lambda I_{m+n}-\begin{bmatrix}O&O\\A&AB\end{bmatrix}\right),即det[λInBAOAλIm]=det[λInOAλImAB]det\begin{bmatrix}\lambda I_n-BA&O\\-A&\lambda I_m\end{bmatrix}=det\begin{bmatrix}\lambda I_n&O\\-A&\lambda I_m-AB\end{bmatrix},运用拉普拉斯展开式就有λmdet(λInBA)=λndet(λImAB)\lambda^mdet(\lambda I_n-BA)=\lambda^ndet(\lambda I_m-AB)
    【注2】等式λmdet(λInBA)=λndet(λImAB)\lambda^mdet(\lambda I_n-BA)=\lambda^ndet(\lambda I_m-AB)给出了ABABBABA的特征多项式的关系,且蕴含了ABABBABA的同一非零特征值的代数重数相等这一事实。注意该式不要求mnm\geqslant n,对m<nm\lt n也是成立的。
    【注3】证明中的分块矩阵恒等式可通过分块矩阵的初等变换构造而来,请读者自行思考。(分块矩阵的初等变换见矩阵论(零):线性代数基础知识整理(1)——逆矩阵、初等变换、满秩分解

相似对角化及其条件

  • 定义:若方阵A相似于一个对角矩阵,则称A可对角化
    【注】需要区分对角化与酋对角化的区别:一个矩阵可对角化是指它可相似对角化,酋对角化是相似对角化的一种,一个矩阵可以相似对角化,不代表它可以酋对角化。(酋对角化实际上就是特征值分解,具体可见矩阵论(二):矩阵分解—从Schur分解、特征值分解EVD到奇异值分解SVD
  • 定理:n阶方阵A可对角化的充要条件为A有n个线性无关的特征向量
    矩阵论(零):线性代数基础知识整理(5)——特征值与相似
    【注】定理的证明过程说明,可逆矩阵P的列向量组是A的n个线性无关的特征向量;P的列向量组的排列顺序和对角矩阵对角元(特征值)的排列顺序是相对应的。
  • 定理:n阶方阵A可对角化的充要条件为A的每个特征值的几何重数等于代数重数
    证:
    注意方阵A可对角化的充要条件为AAnn个线性无关的特征向量,而AA的每个特征值的几何重数不大于代数重数,显然只有AA的每个特征值的几何重数等于代数重数时,AA才有nn个线性无关的特征向量。

相似对角化的一个应用:求解斐波那契数列的通项

相似对角化给出了矩阵的一个分解式A=P1ΛPA=P^{-1}\Lambda P,其中Λ=diag(λ1,λ2,...,λn)\Lambda=diag(\lambda_1,\lambda_2,...,\lambda_n)是对角矩阵。相似对角化的一个典型应用是简化矩阵的幂的计算。因为Am=(P1ΛP)m=P1ΛmPA^m=(P^{-1}\Lambda P)^m=P^{-1}\Lambda^mP,所以AA的m次幂的计算就转化为了对角阵Λ\Lambda的m次幂的计算,而Λm=diag(λ1m,λ2m,...,λnm)\Lambda^m=diag(\lambda_1^m,\lambda_2^m,...,\lambda_n^m),大大简化了计算。

下面举一个具体的例子体会一下:
斐波那契数列an{a_n}定义为a1=a2=1a_1=a_2=1且满足递推关系an=an1+an2a_n=a_{n-1}+a_{n-2}。如何求斐波那契的通项呢?将递推关系式写成矩阵形式:[anan1]=[1110][an1an2]=...=[1110]n2[a2a1]\begin{bmatrix}a_n\\a_{n-1}\end{bmatrix}=\begin{bmatrix}1&1\\1&0\end{bmatrix}\begin{bmatrix}a_{n-1}\\a_{n-2}\end{bmatrix}=...=\begin{bmatrix}1&1\\1&0\end{bmatrix}^{n-2}\begin{bmatrix}a_2\\a_1\end{bmatrix}如果能够计算出[1110]n2\begin{bmatrix}1&1\\1&0\end{bmatrix}^{n-2},就能得到通项公式。直接计算[1110]n2\begin{bmatrix}1&1\\1&0\end{bmatrix}^{n-2}很难归纳出每个元素的形式,我们可以利用相似对角化:
首先求[1110]\begin{bmatrix}1&1\\1&0\end{bmatrix}的特征值1+52,152\frac{1+\sqrt{5}}{2},\frac{1-\sqrt{5}}{2},然后分别求这两个特征值对应的特征向量,得到1+52\frac{1+\sqrt{5}}{2}对应的一个特征向量[1+521]\begin{bmatrix}\frac{1+\sqrt{5}}{2}\\1\end{bmatrix}152\frac{1-\sqrt{5}}{2}对应的一个特征向量[1521]\begin{bmatrix}\frac{1-\sqrt{5}}{2}\\1\end{bmatrix},于是有如下分解式:[1110]=[1+5215211][1+5200152][1+5215211]1\begin{bmatrix}1&1\\1&0\end{bmatrix}=\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&0\\0&\frac{1-\sqrt{5}}{2}\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}^{-1}[anan1]=[1110]n2[a2a1]=[1+5215211][1+5200152]n2[1+5215211]1[a2a1]=[1+5215211][(1+52)n200(152)n2][1+5215211]1[11]=15[(1+52)n(152)n(1+52)n1(152)n1]\begin{aligned}\begin{bmatrix}a_n\\a_{n-1}\end{bmatrix}&=\begin{bmatrix}1&1\\1&0\end{bmatrix}^{n-2}\begin{bmatrix}a_2\\a_1\end{bmatrix}\\&=\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&0\\0&\frac{1-\sqrt{5}}{2}\end{bmatrix}^{n-2}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}^{-1}\begin{bmatrix}a_2\\a_1\end{bmatrix}\\&=\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}\begin{bmatrix}(\frac{1+\sqrt{5}}{2})^{n-2}&0\\0&(\frac{1-\sqrt{5}}{2})^{n-2}\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}^{-1}\begin{bmatrix}1\\1\end{bmatrix}\\&=\frac{1}{\sqrt{5}}\begin{bmatrix}(\frac{1+\sqrt{5}}{2})^n-(\frac{1-\sqrt{5}}{2})^n\\(\frac{1+\sqrt{5}}{2})^{n-1}-(\frac{1-\sqrt{5}}{2})^{n-1}\end{bmatrix}\end{aligned}an=15[(1+52)n(152)n]a_n=\frac{1}{\sqrt{5}}[(\frac{1+\sqrt{5}}{2})^n-(\frac{1-\sqrt{5}}{2})^n]