线性代数基础知识整理
线性代数基础知识
因为总是忘记线代的一些基础知识,因此在这里整理记录一下。
1.常见的特殊矩阵
1.1.正交矩阵
- 定义:对于一个n维矩阵A,若满足以下条件,则A为正交矩阵。
A A T = I n AA^T=I_n AAT=In
- 等价条件:对于正交矩阵 A n × n = ( α 1 α 2 . . . α n ) A_{n \times n}=(\alpha_1 \quad \alpha_2 \quad ... \quad \alpha_n) An×n=(α1α2...αn),存在以下等价条件
A T A = E ⟺ α 1 , α 2 , . . . , α n { α i T α j = 0 , i ≠ j ∣ ∣ α i ∣ ∣ = 1 , i = 1 , 2 , . . . , n A^TA=E \Longleftrightarrow \alpha_1,\alpha_2,...,\alpha_n \begin{cases} \alpha_i^T \alpha_j = 0, & i \neq j \\ ||\alpha_i||=1, & i=1,2,...,n \end{cases} ATA=E⟺α1,α2,...,αn{αiTαj=0,∣∣αi∣∣=1,i=ji=1,2,...,n
也就是说,正交矩阵的列向量两两正交且规范,行向量亦然。
- 性质:
- ∣ A ∣ = ± 1 |A|=\pm1 ∣A∣=±1;
- A T = A − 1 A^T=A^{-1} AT=A−1;
- Q T Q = I , y = Q x ⟹ ∣ y ∣ = ∣ x ∣ Q^TQ=I,y=Qx \Longrightarrow |y|=|x| QTQ=I,y=Qx⟹∣y∣=∣x∣1;
2.矩阵的逆
2.1.基础概念
2.1.1.逆矩阵
对于矩阵A来说,若存在一个矩阵B,使得
A
B
=
B
A
=
I
AB=BA=I
AB=BA=I,则矩阵A为可逆矩阵,且A的逆矩阵为B,记为
B
=
A
−
1
B=A^{-1}
B=A−1
2.1.2.伪逆矩阵
从逆矩阵的定义中可以看出,只有行列式不等于零的方阵才存在逆矩阵。但对于行列式为零的方阵和非方阵A来说,没有逆矩阵,取而代之的是伪逆矩阵B,记为
B
=
A
+
B=A^+
B=A+
可以看出,伪逆矩阵是逆矩阵的推广形式。对于奇异矩阵A(即行列式为零的方阵)和非方阵,存在以下两种定义:
- 满足 A L A = I A^LA=I ALA=I,但不满足 A A L = I AA^L=I AAL=I,则 A L A^L AL称为矩阵A的左逆矩阵;
- 满足 A A R = I AA^R=I AAR=I,但不满足 A R A = I A^RA=I ARA=I,则 A R A^R AR称为矩阵A的右逆矩阵;
对于n*m的矩阵A来说,根据n与m的大小关系,可以分为以下三种情况:
- 当 m ≥ n m\ge n m≥n且列满秩时,矩阵A存在左逆矩阵, A L = ( A T A ) − 1 A T A^L = (A^TA)^{-1}A^T AL=(ATA)−1AT;
- 当 m ≤ n m\le n m≤n且行满秩时,矩阵A存在右逆矩阵, A R = A T ( A T A ) − 1 A^R = A^T(A^TA)^{-1} AR=AT(ATA)−1;
- 当 m = n m = n m=n且秩为 r ≤ m = n r\le m=n r≤m=n,可将A进行奇异值分解为 A = U D V T A=UDV^T A=UDVT,A的伪逆矩阵为 A + = V D + U T A^+=VD^+U^T A+=VD+UT.
3.特征值与特征向量
3.1.定义
对于一个n维矩阵A,若存在一个
λ
\lambda
λ和非零向量
α
\alpha
α,使得
A
α
=
λ
α
A\alpha=\lambda \alpha
Aα=λα
则该
λ
\lambda
λ即为矩阵A的特征值,而非零向量
α
\alpha
α即为该特征值对应的特征向量。对于一个n维矩阵而言,必然存在n个特征值。特征值的分布有以下两种情况:
- 存在n个不同的特征值;
- 存在m个相同特征值,即m重根;
3.2.特征值与特征向量的关系
通过求解特征方程 ∣ λ E − A ∣ = f ( λ ) = 0 |\lambda E-A|=f(\lambda)=0 ∣λE−A∣=f(λ)=0,可以得到矩阵A的特征值。而特征向量的求解与特征值密切相关,其实质是求齐次线性方程组 ( A − λ I ) α = 0 (A-\lambda I)\alpha=0 (A−λI)α=0的通解。得到齐次通解后,任意一个特解即可作为特征向量,一般直接取基础解系。
对于特征向量来说,一般都是关注其线性无关的特征向量的个数,因为这决定了该矩阵是否可以对角化。根据特征方程的重根个数,所需要的线性无关的特征向量个数也不同,两者在数值上应该相等。一般分为两种情况:
- 对于单特征值,必然存在一个特征向量,即 1 = 1 1=1 1=1。而且基于不同特征值的特征向量必然线性无关的特性,不会成为矩阵无法对角化的阻碍;
- 对于m重特征根,则无法保证齐次线性方程组 ( A − λ I ) α = 0 (A-\lambda I)\alpha=0 (A−λI)α=0的基础解系个数s与重数m相等,即 s ≤ m s\le m s≤m。
3.3.矩阵对角化
n维矩阵可以对角化的充要条件为:该矩阵存在n个线性无关的特征向量。也就是说,并非所有n维矩阵都存在n个线性无关的特征向量。该情况一般存在于出现重根特征值的矩阵中。接下来分析矩阵无法对角化的情况。
假设存在一个n维矩阵A, λ 0 \lambda_0 λ0为该矩阵A的一个r重特征值,该特征值对应的线性无关的特征向量个数为s,接下来就会出现两种情况:
- s = r s=r s=r;
- s < r s<r s<r.
其中,线性无关的特征向量个数也表示对应的齐次通解的基础解系的个数(*变量个数)。显然,第一种情况满足矩阵对角化条件,而后者不满足。
矩阵对角化的一般形式是取一个可逆矩阵 P P P,使得 P − 1 A P = Λ P^{-1}AP=\Lambda P−1AP=Λ,那么如何取可逆矩阵 P P P呢?
令
P
=
(
α
1
α
2
α
3
)
P=(\alpha_1 \quad \alpha_2 \quad \alpha_3)
P=(α1α2α3),则上式可以等价为
A
P
=
P
Λ
⟺
(
A
α
1
A
α
2
A
α
3
)
=
(
λ
1
α
1
λ
2
α
2
λ
3
α
3
)
AP=P\Lambda \Longleftrightarrow (A\alpha_1 \quad A\alpha_2 \quad A\alpha_3)=(\lambda_1\alpha_1 \quad \lambda_2\alpha_2 \quad \lambda_3\alpha_3)
AP=PΛ⟺(Aα1Aα2Aα3)=(λ1α1λ2α2λ3α3)
这样就表示为了三个等式形成的方程组,从形式上可以看出,
α
i
\alpha_i
αi就是对应特征值的特征向量。
但在这里我有不解的地方。假设 λ 1 = λ 2 = λ \lambda_1=\lambda_2=\lambda λ1=λ2=λ,那么只要取对应的特征向量即可满足条件,为什么一定要两个特征向量保持线性无关呢?
后来,我才意识到:如果同一个特征值的数个特征向量不保持线性无关,那么得到的矩阵 P P P就不是可逆矩阵了。
3.4.施密特正交化
-
功能:将n个线性无关的向量通过特定的线性组合后,得到新的n个两两正交且规范的向量;
-
步骤:正交化+规范化;
-
应用场景:实对称矩阵的由正交矩阵实现的对角化过程2。
由于实对称矩阵具有不同特征值的特征向量必然相互正交的性质,对于存在n个不同特征值的实对称矩阵而言,仅需要将n个相对应的特征向量规范化即可得到正交矩阵。
但如果存在m重根现象,那么由该特征值得到的m个线性无关的特征向量之间无法保证其两两正交。此时就需要使用施密特正交化来实现两两正交。这也是为什么施密特正交化后的新向量仍为特征向量的原因,因为参与该正交化的都是齐次线性方程组的基础解系,而基础解系的线性组合仍为该方程组的解。
4.二次型
4.1.定义
二次型是指含有n个变量的二次多项式,即在一个多项式中,未知数的个数为n个,但其次数均为2次。二次型表示为如下形式:
f
(
x
1
,
x
2
,
.
.
.
,
f
n
)
=
a
11
x
1
2
+
a
22
x
2
2
+
.
.
.
+
a
n
n
x
n
2
+
2
a
12
x
1
x
2
+
.
.
.
+
2
a
n
−
1
n
x
n
−
1
x
n
f(x_1,x_2,...,f_n)=a_{11}x^2_1+a_{22}x^2_2+...+a_{nn}x^2_n+2a_{12}x_1x_2+...+2a_{n-1n}x_{n-1}x_n
f(x1,x2,...,fn)=a11x12+a22x22+...+annxn2+2a12x1x2+...+2an−1nxn−1xn
有意思的是,二次型或者说二次多项式均可以表示为如下形式:
f
(
x
1
,
x
2
,
.
.
.
,
x
n
)
=
X
T
A
X
f(x_1,x_2,...,x_n)=X^TAX
f(x1,x2,...,xn)=XTAX
A = [ a 11 . . . a 1 n . . . . . . . . . a n 1 . . . a n n ] , X = ( x 1 , x 2 , . . . , x n ) T A = \left[ \begin{matrix} a_{11} & ... & a_{1n}\\ ... & ... & ...\\ a_{n1} & ... & a_{nn} \end{matrix} \right],X=(x_1,x_2,...,x_n)^T A=⎣⎡a11...an1.........a1n...ann⎦⎤,X=(x1,x2,...,xn)T
矩阵A被称为二次型矩阵,这也是我们研究二次型的主要研究对象。通过观察可以发现,二次型矩阵一定是对称矩阵,若不考虑复数,则为实对称矩阵。
对于实对称矩阵来说,必然可以进行矩阵对角化。矩阵对角化的一个应用场景就是把二次型标准化,即把二次型矩阵对角化。
4.2.标准化方法
一般来说,二次型矩阵标准化有两种实现方法:配方法和正交变换法。后者也就是我们常用的实对称矩阵高标准的矩阵对角化。
在采用配方法化二次型为标准形式时,需要注意以下三点:
- 配方法得到的标准二次型不唯一;
- 配方法所得的标准二次型系数不一定为矩阵特征值;
- 配方法所得的无数标准型中,其系数的正负个数均相同.
4.3.正定二次型
在所有二次型中,存在一个特殊的二次型,即正定二次型。正定二次型满足以下条件:
∀
X
≠
0
,
X
T
A
X
>
0
\forall X \neq0,X^TAX > 0
∀X=0,XTAX>0
对于正定二次型来说,其对应的二次型矩阵A亦被称为正定矩阵。从图像上看,正定如下图所示:
一般有以下三种方法判断对称矩阵是否为正定矩阵:
- 定义法:根据定义判断;
- 特征值法:若对称矩阵的特征值均大于零,则该矩阵正定;
- 顺序余子式法:若对称矩阵的顺序余子式均大于零,则该矩阵正定.