应用统计方法解决模式识别问题时,一再碰到的问题之一就是维度问题。在低维空间里计算上行得通的方法,在高维空间中往往行不通,如维度灾难等问题。因此,降低维数有时就会成为处理实际问题的关键。
简介
前面说到,在处理实际问题时,我们可能需要将维度降低以避免维度灾难等问题。我们不妨考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。当然,即使样本在d维空间里形成若干紧凑的互相分得开的集群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别。但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开。那么,如何根据实际情况找到一条最好的、最易于分类的投影线呢?这就是Fisher判别方法所要解决的基本问题。如下图所示。
在讨论Fisher线性判别之前,我们不妨先看看样本是如何从d维空间映射到一维空间的。
假设有一包含N个d维的样本集合S,其中N1个属于w1的样本集合记为S1,N2个属于w2的样本集合记为S2。若对xi的分量做线性组合即可得到标量,
yi=wTxi,i=1,2,…,N
这样,我们便可得到N个一维样本yi组成的集合,并可分为两个子集S1′和S2′。
因此,我们只需找到一个矩阵w∈R1×d即可将样本从d维空间降到1维空间。此外,w的值是无关紧要的,它仅是一个比例因子。重要的是选择w的方向。因为,w的方向不同,将使样本投影后的可分离程度不同,从而直接影响的分类效果。因此,上述寻找最佳投影方向的问题,在数学上就是寻找最好的变换向量w∗的问题。
Fisher线性判别中的基本参量
在之前的内容,我们讨论了Fisher线性判别的基本概念。这里,在对Fisher线性判别进行详细地数学推导之前,我们先见到介绍一下涉及到的一些基本参量。
-
在d维X空间
-
各类样本的均值向量mi
mi=Ni1x∈Si∑x,i=1,2
-
样本类内离散度矩阵Si和总样本类内离散度矩阵Sw。其中Sw是对称半正定矩阵,而且当N>d时通常是非奇异的。
SiSw=x∈Si∑(x−mi)(x−mi)T,i=1,2=S1+S2
-
样本类间离散度矩阵Sb。其中,Sb是对称半正定矩阵。
Sb=(m1−m2)(m1−m2)T
-
在1维Y空间
- 各类样本均值m~i
m~i=Ni1y∈Si′∑y,i=1,2
- 样本类内离散度S~i2和总样本类内离散度S~w
S~i2S~w=y∈Si′∑(y−m~i)2,i=1,2=S~12+S~22
Fisher准则函数
ok!Fisher线性判别的基本参量已经介绍完毕,接下来就开始进入正题吧。
直观上看,为了样本映射后能线性划分,我们想要同一类的样本彼此靠近,不同类的样本彼此分离。因此,我们不妨定义函数如下,
JF(w)=S~12+S~22(m~1−m~2)2
其中,m~1−m~2是两类样本均值之差,S~i2是样本类内离散度。显然,应该使JF(w)的分子尽可能大而分母尽可能小,即应该尽可能寻找使JF(w)大的w作为投影方向。但上式中不显式包含w。因此,我们首先需要将JF(w)转换为w的显函数。
由各类样本的均值可推出,
m~i=Ni1y∈Si′∑y=Ni1x∈Si∑wTx=wTmi
这样,Fisher准则函数JF(w)的分子可写成,
(m~1−m~2)2=(wTm1−wTm2)2=wT(m1−m2)(m1−m2)Tw=wTSbw
现在再来考察JF(w)的分母与w的关系,
S~i2=y∈Si′∑(y−m~i)2=x∈Si∑(wTx−wTmi)=wT[x∈Si∑(x−mi)(x−mi)T]w=wTSiw
因此,有S~12+S~22=wT(S1+S2)w=wTSww
将各式代入准则函数JF(w),得
JF(w)=wTSwwwTSbw
其中,Sb为样本类间离散度矩阵,Sw为总样本类内离散度矩阵。
w∗的求取
不难发现,w∗的求取实际上是一个有条件约束的优化问题。因为,在求解w∗的过程中,要始终保持wTSww̸=0。因此,我们需要使用拉格朗日乘子法求解w∗。
令分母为非零常数,即,
wTSww=c̸=0
定义拉格朗日函数为,
L(w,λ)=wTSbw−λ(wTSww−c)
其中,λ是拉格朗日乘子。将上式对w求偏导,得
∂w∂L(w,λ)=Sbw−λSww
令偏导数为零,有,
Sbw∗−λSww∗=0
即,
Sbw∗=λSww∗
其中,w∗就是JF(w)的极值解。因为Sw非奇异,将上式两边左乘Sw−1,可得
Sw−1Sbw∗=λw∗
上式为求一般矩阵Sw−1Sb的特征值问题。利用Sb=(m1−m2)(m1−m2)T的定义,将上式左边的Sbw∗写成,
Sbw∗=(m1−m2)(m1−m2)Tw∗=(m1−m2)R
其中,R=(m1−m2)Tw∗是一标量,所以Sbw∗总在向量(m1−m2)的方向上。因此,λw∗可写成,
λw∗=Sw−1(m1−m2)R
因此,可有
w∗=λRSw−1(m1−m2)
由于我们的目的是寻找最佳的投影方向,w∗的比例因子对此并无影响,因此可忽略比例因子λR,有
w∗=Sw−1(m1−m2)
总结
-
w∗是使Fisher准则函数JF(w)取极大值时的解,也就是d维X空间到一维Y空间的最佳投影方向。有了w∗,就可以把d维样本x投影到一维,这实际上是多维空间到一维空间的一种映射,这个一维空间的方向w∗相对于Fisher准则函数JF(w)是最好的。
- 利用Fisher准则,就可以将d维分类问题转化为一维分类问题,然后,只要确定一个阈值T,将投影点yi与T相比较,即可进行分类判别。
参考文献
黄庆明,《第三章.ppt》