线性代数基础知识

因为总是忘记线代的一些基础知识，因此在这里整理记录一下。

1.常见的特殊矩阵

1.1.正交矩阵

定义：对于一个n维矩阵A，若满足以下条件，则A为正交矩阵。

A A T = I n AA^T=I_n AAT=In

等价条件：对于正交矩阵 A n × n = ( α 1 α 2 . . . α n ) A_{n \times n}=(\alpha_1 \quad \alpha_2 \quad ... \quad \alpha_n) An×n=(α1α2...αn)，存在以下等价条件

A T A = E ⟺ α 1 , α 2 , . . . , α n { α i T α j = 0 , i ≠ j ∣ ∣ α i ∣ ∣ = 1 , i = 1 , 2 , . . . , n A^TA=E \Longleftrightarrow \alpha_1,\alpha_2,...,\alpha_n \begin{cases} \alpha_i^T \alpha_j = 0, & i \neq j \\ ||\alpha_i||=1, & i=1,2,...,n \end{cases} ATA=E⟺α1,α2,...,αn{αiTαj=0,∣∣αi∣∣=1,i=ji=1,2,...,n

也就是说，正交矩阵的列向量两两正交且规范，行向量亦然。

性质：
1. ∣ A ∣ = ± 1 |A|=\pm1 ∣A∣=±1；
2. A T = A − 1 A^T=A^{-1} AT=A−1；
3. Q T Q = I , y = Q x ⟹ ∣ y ∣ = ∣ x ∣ Q^TQ=I,y=Qx \Longrightarrow |y|=|x| QTQ=I,y=Qx⟹∣y∣=∣x∣¹；

2.矩阵的逆

2.1.基础概念

2.1.1.逆矩阵

对于矩阵A来说，若存在一个矩阵B，使得 A B = B A = I AB=BA=I AB=BA=I，则矩阵A为可逆矩阵，且A的逆矩阵为B，记为
B = A − 1 B=A^{-1} B=A−1

2.1.2.伪逆矩阵

从逆矩阵的定义中可以看出，只有行列式不等于零的方阵才存在逆矩阵。但对于行列式为零的方阵和非方阵A来说，没有逆矩阵，取而代之的是伪逆矩阵B，记为
B = A + B=A^+ B=A+
可以看出，伪逆矩阵是逆矩阵的推广形式。对于奇异矩阵A（即行列式为零的方阵）和非方阵，存在以下两种定义：

满足 A L A = I A^LA=I ALA=I，但不满足 A A L = I AA^L=I AAL=I，则 A L A^L AL称为矩阵A的左逆矩阵；
满足 A A R = I AA^R=I AAR=I，但不满足 A R A = I A^RA=I ARA=I，则 A R A^R AR称为矩阵A的右逆矩阵；

对于n*m的矩阵A来说，根据n与m的大小关系，可以分为以下三种情况：

当 m ≥ n m\ge n m≥n且列满秩时，矩阵A存在左逆矩阵， A L = ( A T A ) − 1 A T A^L = (A^TA)^{-1}A^T AL=(ATA)−1AT；
当 m ≤ n m\le n m≤n且行满秩时，矩阵A存在右逆矩阵， A R = A T ( A T A ) − 1 A^R = A^T(A^TA)^{-1} AR=AT(ATA)−1；
当 m = n m = n m=n且秩为 r ≤ m = n r\le m=n r≤m=n，可将A进行奇异值分解为 A = U D V T A=UDV^T A=UDVT，A的伪逆矩阵为 A + = V D + U T A^+=VD^+U^T A+=VD+UT.

3.特征值与特征向量

3.1.定义

对于一个n维矩阵A，若存在一个 λ \lambda λ和非零向量 α \alpha α，使得
A α = λ α A\alpha=\lambda \alpha Aα=λα
则该 λ \lambda λ即为矩阵A的特征值，而非零向量 α \alpha α即为该特征值对应的特征向量。对于一个n维矩阵而言，必然存在n个特征值。特征值的分布有以下两种情况：

存在n个不同的特征值；
存在m个相同特征值，即m重根；

3.2.特征值与特征向量的关系

通过求解特征方程 ∣ λ E − A ∣ = f ( λ ) = 0 |\lambda E-A|=f(\lambda)=0 ∣λE−A∣=f(λ)=0，可以得到矩阵A的特征值。而特征向量的求解与特征值密切相关，其实质是求齐次线性方程组 ( A − λ I ) α = 0 (A-\lambda I)\alpha=0 (A−λI)α=0的通解。得到齐次通解后，任意一个特解即可作为特征向量，一般直接取基础解系。

对于特征向量来说，一般都是关注其线性无关的特征向量的个数，因为这决定了该矩阵是否可以对角化。根据特征方程的重根个数，所需要的线性无关的特征向量个数也不同，两者在数值上应该相等。一般分为两种情况：

对于单特征值，必然存在一个特征向量，即 1 = 1 1=1 1=1。而且基于不同特征值的特征向量必然线性无关的特性，不会成为矩阵无法对角化的阻碍；
对于m重特征根，则无法保证齐次线性方程组 ( A − λ I ) α = 0 (A-\lambda I)\alpha=0 (A−λI)α=0的基础解系个数s与重数m相等，即 s ≤ m s\le m s≤m。

3.3.矩阵对角化

n维矩阵可以对角化的充要条件为：该矩阵存在n个线性无关的特征向量。也就是说，并非所有n维矩阵都存在n个线性无关的特征向量。该情况一般存在于出现重根特征值的矩阵中。接下来分析矩阵无法对角化的情况。

假设存在一个n维矩阵A， λ 0 \lambda_0 λ0为该矩阵A的一个r重特征值，该特征值对应的线性无关的特征向量个数为s，接下来就会出现两种情况：

s = r s=r s=r;
s < r s<r s<r.

其中，线性无关的特征向量个数也表示对应的齐次通解的基础解系的个数（*变量个数）。显然，第一种情况满足矩阵对角化条件，而后者不满足。

矩阵对角化的一般形式是取一个可逆矩阵 P P P，使得 P − 1 A P = Λ P^{-1}AP=\Lambda P−1AP=Λ，那么如何取可逆矩阵 P P P呢？

令 P = ( α 1 α 2 α 3 ) P=(\alpha_1 \quad \alpha_2 \quad \alpha_3) P=(α1α2α3)，则上式可以等价为
A P = P Λ ⟺ ( A α 1 A α 2 A α 3 ) = ( λ 1 α 1 λ 2 α 2 λ 3 α 3 ) AP=P\Lambda \Longleftrightarrow (A\alpha_1 \quad A\alpha_2 \quad A\alpha_3)=(\lambda_1\alpha_1 \quad \lambda_2\alpha_2 \quad \lambda_3\alpha_3) AP=PΛ⟺(Aα1Aα2Aα3)=(λ1α1λ2α2λ3α3)
这样就表示为了三个等式形成的方程组，从形式上可以看出， α i \alpha_i αi就是对应特征值的特征向量。

但在这里我有不解的地方。假设 λ 1 = λ 2 = λ \lambda_1=\lambda_2=\lambda λ1=λ2=λ，那么只要取对应的特征向量即可满足条件，为什么一定要两个特征向量保持线性无关呢？

后来，我才意识到：如果同一个特征值的数个特征向量不保持线性无关，那么得到的矩阵 P P P就不是可逆矩阵了。

3.4.施密特正交化

功能：将n个线性无关的向量通过特定的线性组合后，得到新的n个两两正交且规范的向量；
步骤：正交化+规范化；
应用场景：实对称矩阵的由正交矩阵实现的对角化过程²。

由于实对称矩阵具有不同特征值的特征向量必然相互正交的性质，对于存在n个不同特征值的实对称矩阵而言，仅需要将n个相对应的特征向量规范化即可得到正交矩阵。

但如果存在m重根现象，那么由该特征值得到的m个线性无关的特征向量之间无法保证其两两正交。此时就需要使用施密特正交化来实现两两正交。这也是为什么施密特正交化后的新向量仍为特征向量的原因，因为参与该正交化的都是齐次线性方程组的基础解系，而基础解系的线性组合仍为该方程组的解。

4.二次型

4.1.定义

二次型是指含有n个变量的二次多项式，即在一个多项式中，未知数的个数为n个，但其次数均为2次。二次型表示为如下形式：
f ( x 1 , x 2 , . . . , f n ) = a 11 x 1 2 + a 22 x 2 2 + . . . + a n n x n 2 + 2 a 12 x 1 x 2 + . . . + 2 a n − 1 n x n − 1 x n f(x_1,x_2,...,f_n)=a_{11}x^2_1+a_{22}x^2_2+...+a_{nn}x^2_n+2a_{12}x_1x_2+...+2a_{n-1n}x_{n-1}x_n f(x1,x2,...,fn)=a11x12+a22x22+...+annxn2+2a12x1x2+...+2an−1nxn−1xn
有意思的是，二次型或者说二次多项式均可以表示为如下形式：
f ( x 1 , x 2 , . . . , x n ) = X T A X f(x_1,x_2,...,x_n)=X^TAX f(x1,x2,...,xn)=XTAX

A = [ a 11 . . . a 1 n . . . . . . . . . a n 1 . . . a n n ] , X = ( x 1 , x 2 , . . . , x n ) T A = \left[ \begin{matrix} a_{11} & ... & a_{1n}\\ ... & ... & ...\\ a_{n1} & ... & a_{nn} \end{matrix} \right],X=(x_1,x_2,...,x_n)^T A=⎣⎡a11...an1.........a1n...ann⎦⎤,X=(x1,x2,...,xn)T

矩阵A被称为二次型矩阵，这也是我们研究二次型的主要研究对象。通过观察可以发现，二次型矩阵一定是对称矩阵，若不考虑复数，则为实对称矩阵。

对于实对称矩阵来说，必然可以进行矩阵对角化。矩阵对角化的一个应用场景就是把二次型标准化，即把二次型矩阵对角化。

4.2.标准化方法

一般来说，二次型矩阵标准化有两种实现方法：配方法和正交变换法。后者也就是我们常用的实对称矩阵高标准的矩阵对角化。

在采用配方法化二次型为标准形式时，需要注意以下三点：

配方法得到的标准二次型不唯一；
配方法所得的标准二次型系数不一定为矩阵特征值；
配方法所得的无数标准型中，其系数的正负个数均相同.

4.3.正定二次型

在所有二次型中，存在一个特殊的二次型，即正定二次型。正定二次型满足以下条件：
∀ X ≠ 0 , X T A X > 0 \forall X \neq0,X^TAX > 0 ∀X=0,XTAX>0
对于正定二次型来说，其对应的二次型矩阵A亦被称为正定矩阵。从图像上看，正定如下图所示：

线性代数基础知识整理

一般有以下三种方法判断对称矩阵是否为正定矩阵：

定义法：根据定义判断；
特征值法：若对称矩阵的特征值均大于零，则该矩阵正定；
顺序余子式法：若对称矩阵的顺序余子式均大于零，则该矩阵正定.

性质3说明了正交矩阵与向量相乘后得到的新向量的模不变，可作为旋转矩阵 ↩︎
对于实对称矩阵来说，不但可以找到一个可逆矩阵P实现对角化，还可以找到一个正交矩阵Q实现对角化 ↩︎