因子分析是一种数据简化技术，是一种数据的降维方法。
因子分子可以从原始高维数据中，挖掘出仍然能表现众多原始变量主要信息的低维数据。此低维数据可以通过高斯分布、线性变换、误差扰动生成原始数据。
因子分析基于一种概率模型，使用EM算法来估计参数。

主成分分析（PCA）也是一种特征降维的方法。
学习理论中，特征选择是要剔除与标签无关的特征，比如“汽车的颜色”与“汽车的速度”无关；
PCA中要处理与标签有关、但是存在噪声或者冗余的特征，比如在一个汽车样本中，“千米/小时”与“英里/小时”中有一个冗余了。
PCA的方法比较直接，只要计算特征向量就可以降维了。

独立成分分析（ICA）是一种主元分解的方法。
其基本思想是从一组混合的观测信号中分离出独立信号。比如在一个大房间里，很多人同时在说话，样本是这个房间里各个位置的一段录音，ICA可以从这些混合的录音中分离出每个人独立的说话的声音。
ICA认为观测信号是若干个统计独立的分量的线性组合，ICA要做的是一个解混过程。

因为因子分析、PCA、ICA都是对数据的处理方法，就放在这同一份总结里了。

1、因子分析（Factor analysis）

1.1、因子分析的直观理解

因子分析认为高维样本点实际上是由低维样本点经过高斯分布、线性变换、误差扰动生成的。让我们来看一个简单例子，对低维数据如何生成高维数据有一个直观理解。

假设我们有m=5个2维原始样本点如下：

因子分析、主成分分析（PCA）、独立成分分析（ICA）——斯坦福CS229机器学习个人总结（六）

图一

那么按照因子分析的做法，原始数据可以由以下过程生成：
①在一个低维空间（此处是1维）中，存在着由高斯分布生成的m个点z(i)，z(i)~N(0,I)：

图二
②使用某个Λ=(a,bT)将1维的z映射到2维的空间中：
因子分析、主成分分析（PCA）、独立成分分析（ICA）——斯坦福CS229机器学习个人总结（六）

图三
③加上μ(μ1,μ2)T，让直线过μ——实际上是将样本点横坐标加μ1，纵坐标加μ2：
因子分析、主成分分析（PCA）、独立成分分析（ICA）——斯坦福CS229机器学习个人总结（六）

图四
④对直线上的点做一定的扰动，其扰动为ε~N(0,ψ)：
因子分析、主成分分析（PCA）、独立成分分析（ICA）——斯坦福CS229机器学习个人总结（六）

图五
黑点就是图一中的原始数据。

1.2、因子分析的一般过程

因子分析认为m个n维特征的训练样例(x(1),x(2),⋯,x(m))的产生过程如下：
①在一个k维空间中，按照多元高斯分布生成m个z(i)（k维向量，k<n），即
z(i)~N(0,I)
②存在一个变换矩阵Λ∈Rn∗k，将z(i)映射到n维空间中，即
Λz(i)
③将Λz(i)（n维）加上一个均值μ（n维），即
μ+Λz(i)
④对每个点加上符合多元高斯分布的扰动ε~N(0,ψ)（n维向量），即
x(i)=μ+Λz(i)+ε

1.3、因子分析模型

模型与参数概述

由上面的分析，我们定义因子分析的模型为：

z~N(0,I)
ε~N(0,ψ)
x=μ+Λz+ε(1)
其中z和ε是相互独立的。并且由上面的分析过程，我们可以直观地感受到我们的参数是μ∈Rn、Λ∈Rn∗k、ψ∈Rn∗n。

另一个等价的假设是，(x,z)联合分布如下，其中z∈Rk是一个隐藏随机变量：

x∣z~N(μ+Λz,ψ) (2)
这个假设会在使用EM算法求解因子分析参数，E步中迭代Q分布的时候用到。

接下来的课程，是使用高斯模型的矩阵表示法来对模型进行分析。矩阵表示法认为z与x联合符合多元高斯分布，即：

[zx]~N(μzx,Σ)
多元高斯分布的原始模型是：

f (x) = 1 2 π k | Σ | - - - - - - \sqrt exp (- 12 (x - μ) T Σ - 1 (x - μ)) (3)

其中x是k维向量，μ是k维向量，Σ是k∗k协方差矩阵。
很明显在多元高斯分布模型下，参数是μzx,Σ——它们是由x,z的联合分布生成的，所以我们可以用我们的原始参数μ,Λ,ψ来表示μzx,Σ，求得x的边缘分布，再把相关参数带入式（3），这就得到了关于我们参数的概率分布，然后就可以通过最大似然估计来求取我们的参数。

求取μzx

μzx是x,z联合分布的期望值（期望的定义：所有结果*相应概率的总和）：

μ z x = E [z x] = [E (z) E (x)] (4)

由z~N(0,I)我们可以简单获得E(z)=0。
类似地由ε~N(0,ψ)，x=μ+Λz+ε，μ是一个常数，我们有：

E [x] = E [μ + Λ z + ε] = E [μ] + Λ E [z] + E [ε] = μ + 0 + 0 = μ (5)

所以：

μ z x = [0 ⃗ μ] (6)

求取Σ

Σ是x,z联合分布的协方差矩阵。
方差，度量随机变量与期望之间的偏离程度，定义如下：

V a r (X) = E ((X - E (X)) 2) = E (X 2) - (E (X) 2) (7)

协方差，两个变量总体误差的期望，定义如下：

C o v (X, Y) = E ((X - E (X)) (Y - E (Y))) (8)

协方差、方差、期望之间的一些相互关系如下：

C o v (X, X) = C o v (X) = V a r (X) = E (X X T) = σ 2 (9)

下面开始求取Σ。

Σ = C o v [z x] = [Σ z z Σ x z Σ z x Σ x x] = E [(z - E (z)) (z - E (z)) T (x - E (x)) (z - E (z)) T (z - E (z)) (x - E (x)) T (x - E (x)) (x - E (x)) T] (10)

由z~N(0,I)，可以简单得到：

Σ z z = C o v (z) = σ 2 = I (11)

由ε~N(0,ψ)，x=μ+Λz+ε，E(x)=μ，并且z和ε是相互独立，有：

Σ z x = E [(z - E (z)) (x - E (x)) T] = E [(z - 0) (μ + Λ z + ε - μ) T] = E [z z T] Λ T + E [z ε T] = I Λ T + 0 = Λ T (12)

类似地，我们可以得到：

Σ x x = E [(x - E (x)) (x - E (x)) T] = E [(μ + Λ z + ε - μ) (μ + Λ z + ε - μ) T] = Λ E [z z T] Λ T + E [ε ε T] = Λ I Λ T + ψ = Λ Λ T + ψ (13)

用最大似然估计法求解参数

经过上面的步骤，我们就把μzx,Σ用我们的参数μ,Λ,ψ表示出来了：

[zx]~N(μzx,Σ)~N([0⃗ μ],[IΛΛTΛΛT+ψ])
然后我们可以求得x的边缘分布：
x~N(μ,ΛΛT+ψ)
因此，给定一个训练集{x(i);i=1,2,⋯,m}，把参数带入式（3），我们可以写出下面的似然函数：

l (μ, Λ, ψ) = log \prod i = 1 m 1 2 π n ∣ ∣ Λ Λ T + ψ ∣ ∣ - - - - - - - - - - - \sqrt exp (- 12 (x (i) - μ) T (Λ Λ T + ψ) - 1 (x (i) - μ)) (14)

对此似然函数做最大似然估计，就能求得我们的参数。

1.4、因子分析的EM求解

可以感受到，直接对这个似然函数求解是很困难的，在这个情况下，用EM算法就登场了——当一个似然函数难以直接求解其最大值的时候，可以通过EM算法不断建立下界、最大化下界的方式不断逼近该似然函数真实的最大值，当EM算法收敛，我们就认为已经求得了此最大值。

E-step

对于EM算法的E-step，我们有：

Q i (z (i)) : = p (z (i) ∣ x (i); μ, Λ, ψ) (15)

进一步地：

Q i (z (i)) = 1 2 π k ∣ ∣ Σ z (i) ∣ x (i) ∣ ∣ - - - - - - - - - - \sqrt exp (- 12 (z (i) - μ z (i) ∣ x (i)) T Σ - 1 z (i) ∣ x (i) (z (i) - μ z (i) ∣ x (i))) (16)

其中：

μ z (i) ∣ x (i) Σ z (i) ∣ x (i) = Λ T (Λ Λ T + ψ) - 1 (x (i) - μ) = I - Λ T (Λ Λ T + ψ) - 1 Λ (17)

μz(i)∣x(i),Σz(i)∣x(i)是讲义与课上直接给出的，这里也不进行推导。

M-step

在M-step中，我们需要最大化如下公式来求取参数μ,Λ,ψ：

\sum i = 1 m \int z (i) Q i (z (i)) log p (x (i), z (i); μ, Λ, ψ) Q i (z (i)) d z (i) (18)

视为期望，打开log

在这里，因为z是连续的，所以使用积分；如果是离散的，则使用累加。
并且，积分部分可以当成z服从Q分布时，函数logp(x(i),z(i);μ,Λ,ψ)Qi(z(i))的期望，这里将会用E表示，省略z(i)~Qi的下标；对于函数中x,z的联合分布，我们可以用贝叶斯公式把它打开p(x,z)=p(x∣x)p(z)；为了方便计算我们还要把log函数打开——经过这些分析，我们有如下推导：

\sum i = 1 m \int z (i) Q i (z (i)) log p (x (i), z (i); μ, Λ, ψ) Q i (z (i)) d z (i) = \sum i = 1 m E [log p (x (i), z (i); μ, Λ, ψ) Q i (z (i))] = \sum i = 1 m E [log p (x (i) ∣ z (i); μ, Λ, ψ) p (z (i)) Q i (z (i))] = \sum i = 1 m E [log p (x (i) ∣ z (i); μ, Λ, ψ) + log p (z (i)) - log Q i (z (i))] (19)

去掉无关项后带入具体分布

这就比较清爽了，然后，记住我们的目标是求得参数μ,Λ,ψ，但是它们不能一起求解，所以下面以参数Λ为例，对公式进行求解——在式（19）中，对参数Λ求偏导。另外式（19）中的p(z(i)与Qi(z(i))与Λ无关，可以忽略掉，所以实际上就是对下式求偏导：

\sum i = 1 m E [log p (x (i) ∣ z (i); μ, Λ, ψ)] (20)

在对式（20）求偏导之前，还可以对其进行一些处理——由式（2），并且x∣z服从多元高斯分布，所以有：

\sum i = 1 m E [log p (x (i) ∣ z (i); μ, Λ, ψ)] = \sum i = 1 m E [log 1 2 π n | ψ | - - - - - - \sqrt exp (- 12 (x (i) - (μ + Λ z (i))) T ψ - 1 (x (i) - (μ + Λ z (i))))] = \sum i = 1 m E [- 12 log | ψ | - n 2 log (2 π) - 12 (x (i) - μ - Λ z (i)) T ψ - 1 (x (i) - μ - Λ z (i)))] (21)

去掉无关项后求偏导

同样地，我们的目标是与Λ有关的项，所以忽略掉前面的无关项之后，我们实际上是对下式求偏导并求解：

\nabla Λ \sum i = 1 m E [- 12 (x (i) - μ - Λ z (i)) T ψ - 1 (x (i) - μ - Λ z (i)))] = \sum i = 1 m \nabla Λ - E [12 ((x (i) T - μ T) ψ - 1                  A - z (i) T Λ T ψ - 1            B) ((x (i) - μ)          C - Λ z (i)      D)] = \sum i = 1 m \nabla Λ - E [12 (A C - A D - B C + B D)] (22)

打开后我们可以发现，AC这一项是与Λ无关的，把这一项忽略掉，所以由式（22）继续推导有：

\sum i = 1 m \nabla Λ - E [12 (- A D - B C + B D)] = \sum i = 1 m \nabla Λ - E [12 (- (x (i) T - μ T) ψ - 1 Λ z (i)                        E - z (i) T Λ T ψ - 1 (x (i) - μ)                        F + z (i) T Λ T ψ - 1 Λ z (i))] (23)

因为期望是一个常数，又因为a=tr(a)，所以可以直接对上式求迹；
因为trA=trAT，可以对E求转置，又因为对角矩阵的转置是它本身——(ψ−1)T=ψ−1，所以有trE=trET=trF，对式（23）继续推导有：

\sum i = 1 m \nabla Λ - E [12 (- (x (i) T - μ T) ψ - 1 Λ z (i)                        E - z (i) T Λ T ψ - 1 (x (i) - μ)                        F + z (i) T Λ T ψ - 1 Λ z (i))] = \sum i = 1 m \nabla Λ - E [t r 12 (- z (i) T Λ T ψ - 1 (x (i) - μ)                        E T - z (i) T Λ T ψ - 1 (x (i) - μ)                        F + z (i) T Λ T ψ - 1 Λ z (i))] = \sum i = 1 m \nabla Λ E [- t r 12 z (i) T Λ T ψ - 1 Λ z (i) + t r z (i) T Λ T ψ - 1 (x (i) - μ)] (24)

然后利用trAB=trBA，把式（25）中的z(i)T放到它们自己的后面，再把求导切换到期望里面——求导是针对Λ，期望是针对z(i)，所以是可以切换的：

\sum i = 1 m \nabla Λ E [- t r 12 z (i) T Λ T ψ - 1 Λ z (i) + t r z (i) T Λ T ψ - 1 (x (i) - μ)] = \sum i = 1 m \nabla Λ E [- t r 12 Λ T ψ - 1 Λ z (i) z (i) T + t r Λ T ψ - 1 (x (i) - μ) z (i) T] = \sum i = 1 m (E [- \nabla Λ t r 12 Λ T ψ - 1 Λ z (i) z (i) T] + E [\nabla Λ t r Λ T ψ - 1 (x (i) - μ) z (i) T]) (25)

对于式（25），先用矩阵的迹的性质∇ATf(A)=(∇Af(A))T处理一下：

\sum i = 1 m (E [- (\nabla Λ T t r 12 Λ T ψ - 1 Λ z (i) z (i) T) T] + E [(\nabla Λ T t r Λ T ψ - 1 (x (i) - μ) z (i) T) T]) (26)

对式（26）的第一项使用∇AtrABATC=CAB+CTABT的性质，对第二项使用∇AtrAB=BT 的性质：

\sum i = 1 m ⎛ ⎝ ⎜ ⎜ E ⎡ ⎣ ⎢ ⎢ - ⎛ ⎝ ⎜ \nabla Λ T    A t r 12 Λ T    A ψ - 1    B Λ    A T z (i) z (i) T        C ⎞ ⎠ ⎟ T ⎤ ⎦ ⎥ ⎥ + E ⎡ ⎣ ⎢ ⎢ ⎛ ⎝ ⎜ \nabla Λ T    A t r Λ T    A ψ - 1 (x (i) - μ) z (i) T                    B ⎞ ⎠ ⎟ T ⎤ ⎦ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ = \sum i = 1 m E ((- 12 z (i) z (i) T Λ T ψ - 1 - 12 (z (i) z (i) T) T Λ T (ψ - 1) T) T + ((ψ - 1 (x (i) - μ) z (i) T) T) T) = \sum i = 1 m E ((- z (i) z (i) T Λ T ψ - 1) T + ψ - 1 (x (i) - μ) z (i) T) = \sum i = 1 m E (- ψ - 1 Λ z (i) z (i) T + ψ - 1 (x (i) - μ) z (i) T) (27)

令式（27）=0，并化简，就可以求得参数Λ：

⟹ ⟹ ⟹ \sum i = 1 m E (- ψ - 1 Λ z (i) z (i) T + ψ - 1 (x (i) - μ) z (i) T) = 0 \sum i = 1 m - ψ - 1 Λ E [z (i) z (i) T] + \sum i = 1 m - ψ - 1 (x (i) - μ) E [z (i) T] = 0 \sum i = 1 m Λ E [z (i) z (i) T] = \sum i = 1 m (x (i) - μ) E [z (i) T] Λ = (\sum i = 1 m (x (i) - μ) E [z (i) T]) (\sum i = 1 m E [z (i) z (i) T]) - 1 (28)

我们发现，这里的公式与线性回归中最小二乘法的矩阵形式相似。
相似原因：在因子分析中，x是z的线性函数，在E-step中给出z的Q分布之后，在M-tep中寻找x与z的映射关系Λ；在线性回归的最小二乘中，也是寻找x与y的线性关系。
不同之处：最小二乘只用到了z的最优估计，因子分析还用到了z(i)z(i)T的估计。

对于参数Λ，这里还有未知数E[z(i)T]与E[z(i)z(i)T]，并且此处的期望是在z(i)服从Qi 前提下计算的，所以对于前者，通过式（17）我们有：

E [z (i) T] = μ T z (i) ∣ x (i) (29)

对于后者，由式（7）~式（9）方差与协方差的性质，我们有：

C o v (z) ⟹ E [z (i) z (i) T] = E (z z T) - E (z) E (z T) = E (z (i)) E (z (i) T) + C o v (z) = μ z (i) ∣ x (i) μ T z (i) ∣ x (i) + Σ z (i) ∣ x (i) (30)

注意这里的E[z(i)z(i)T] 不仅仅等于E(z(i))E(z(i)T)，后面还有加上一个后验概率p(z∣x)协方差，要特别注意。

到这里，我们就可以把参数Λ的最终形式给出来了：

Λ = (\sum i = 1 m (x (i) - μ) μ T z (i) ∣ x (i)) (\sum i = 1 m μ z (i) ∣ x (i) μ T z (i) ∣ x (i) + Σ z (i) ∣ x (i)) - 1 (31)

另外对于其他两个参数Λ,ψ，使用相同的方法可以求得，这里直接给出结果
：

μ = 1 m \sum i = 1 m x (i) (32)

ϕ = 1 m \sum i = 1 m x (i) x (i) T - x (i) μ T z (i) ∣ x (i) Λ T - Λ μ z (i) ∣ x (i) x (i) T + Λ μ z (i) ∣ x (i) μ T z (i) ∣ x (i) + Σ z (i) ∣ x (i) Λ T (33)

注意这里的参数是ϕ不是ψ，得到ϕ之后还需要将ψii=ϕii，因为ϕ不是对角矩阵，所以只需要取ϕ对角线上的值即可。

2、主成分分析（Principal component analysis，简称PCA

PCA的意义

PCA技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。

PCA将n个特征降维到k个，可以用来进行数据压缩，如果100维的向量最后可以用10维来表示，那么压缩率为90%。同样图像处理领域的KL变换使用PCA做图像压缩。但PCA要保证降维后，还要保证数据的特性损失最小。

预处理

运行PCA算法之前，数据一般要进行预处理。预处理步骤如下：
①令μ=1m∑mi=1x(i)
②用(x(i)−μ)代替x(i)
③令σ2=1m∑mi=1(x(i)j)2
④用x(i)j/σ2代替x(i)j
步骤①与②将数据的均值变为0；
步骤③与④将数据每个维度的方差变为1，使每个维度都在同一个维度下被度量。
如果已知数据均值为0，或者数据已在同样一个维度下，就无需进行上面的步骤。

最大方差理论解释PCA

Ng在课上说，PCA有9到10种解释方法，这里仅用其中的最大方差理论来解释PCA
在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。如前面的图，样本在横轴上的投影方差较大，在纵轴上的投影方差较小，那么认为纵轴上的投影是由噪声引起的。
因此我们认为，最好的k维特征是将n维样本点转换为k维后，每一维上的样本方差都很大。

下面举例来说明如何寻找主方向。

图六
图六左图是经过预处理的样本点，均值为0，特征方差归一；
图六的中图和右图是将样本投影到某个维度上的表示，该维度用一条过原点的直线表示，前处理的过程实质是将原点移到样本点的中心点。
因子分析、主成分分析（PCA）、独立成分分析（ICA）——斯坦福CS229机器学习个人总结（六）

图七
图七中，原点到样本在直线上的投影的距离x(i)Tu既是方差；样本点到直线上的距离是平方误差。
我们可以直观感受到，图六中间的图方差和是最大的，平方误差是最小的。下面给出用最大方差理论寻找该最佳方向的公式定义。

形式化

设x(i)是数据集中的点，u是要求解的单位向量，那么方差最大化可以形式化为最大化下式：

1 m \sum i = 1 m (x (i) T u) 2 = 1 m \sum i = 1 m u T x (i) x (i) T u = u T (1 m \sum i = 1 m x (i) x (i) T) u (34)

因为归一化后的数据，投影值的均值也为0，所以在方差计算中直接平方。
同时这个式子还有一个约束条件，即∥u∥2=1。熟悉的最大化某个带约束的函数，引入拉格朗日乘子来求解：

l = u T (1 m \sum i = 1 m x (i) x (i) T) u - λ (∥ u ∥ 2 - 1) = u T Σ u - λ (u T u - 1) (35)

对u求导：

\nabla u l = \nabla u (u T Σ u - λ (u T u - 1)) = \nabla u t r (u T Σ u) - λ \nabla u t r (u T u) = (\nabla u T t r (u T Σ u)) T - (λ \nabla u T t r (u T u)) T = ((Σ u) T) T - (λ u T) T = Σ u - λ u (36)

这里主要运用了∇ATf(A)=(∇Af(A))T与∇AtrAB=BT的性质，处理方式与上面因子分析中式（26）与（27）的方式类似，不再赘述。
令导数为0，可知u是Σ的特征向量——(A−λ)x=0看起来会眼熟一些。
因为Σ=1m∑mi=1x(i)x(i)T是对称矩阵，因而可得到n个相正交的特征向量：⎡⎣⎢⎢⎢⎢u1u2⋮un⎤⎦⎥⎥⎥⎥
此时如何达到降维的效果？选取最大的k个（k<n）特征值对应的特征向量即可。u∈Rn，x(i)∈Rn，降维后的数据为：

y (i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ u T 1 x (i) u T 2 x (i) ⋮ u T k x (i) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R k (37)

这样，对于n维的原始数据x(i)，我们有了更低维的k维y(i)去表示它。
以上就是PCA的数学表达式。

3、独立成分分析（Independent component analysis，简称ICA）

解决的问题

ICA解决的是原始数据分解的问题，更具体一些的例子就是将声音信号分离的问题。

经典的鸡尾酒宴会问题（cocktail party problem）。假设在party中有n个人，他们可以同时说话，我们也在房间中一些角落里共放置了个声音接收器用来记录声音。宴会过后，我们从n个麦克风中得到了一组数据{x(i);i=1,2,⋯,m}，i表示采样的时间顺序，也就是说共得到了m组采样，每一组采样都是n维的。我们的目标是单单从这m组采样数据中分辨出每个人说话的信号。
同时我们假设n个信号源为s=(s1,s2,⋯,sn)T，s∈Rn，每一维都是一个人的声音信号，每个人发出的声音信号独立。A是一个未知的混合矩阵（mixing matrix），用来组合叠加信号s，那么：

x = ⎡ ⎣ ⎢ | x (1) | | x (2) | \dots | x (m) | ⎤ ⎦ ⎥ = ⎡ ⎣ ⎢ | A s (1) | | A s (2) | \dots | A s (m) | ⎤ ⎦ ⎥ = A ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ s (1) 1 s (1) 2 ⋮ s (1) n s (2) 1 s (2) 2 ⋮ s (2) n \dots \dots ⋱ \dots s (m) 1 s (m) 2 ⋮ s (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = A s (38)

x不是一个向量，是一个矩阵。其中每个列向量是x(i)，x(i)=As(i)。A和s都是未知的，x是观测收集到的声音信号，是已知的，我们要想办法从x推出s。这个过程也称为盲信号分离。
令W=A−1，有s(i)=A−1x(i)=Wx(i)，所以W可以表示为：

W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ — — — W T 1 W T 2 ⋮ W T n — — — ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (39)

其中Wi∈Rn,其实就是将Wi写成行向量形式。那么得到：s(i)j=Wx(i)j。

ICA不确定性（Ambiguities）

下面是两个原信号不确定性：
第一个，由于w和s都不确定，那么在没有先验知识的情况下，无法同时确定这两个相关参数。比如上面的公式s=wx。当w扩大两倍时，s只需要同时扩大两倍即可，等式仍然满足，因此无法得到唯一的s。
第二个，如果将s的顺序打乱，变成另外一个顺序，那么只需要调换A的列向量顺序即可，因此也无法单独确定s。
另外，还有一种ICA不适用的情况，那就是信号不能是高斯分布的。当源信号是高斯分布的时候，可以由不同的混合矩阵A乘上s，得到相同分布的x，一样无法确定源信号。

密度函数和线性变换

假设我们的随机变量s有概率密度函数ps(s)（连续值是概率密度函数，离散值是概率）。为了简单，我们再假设s是实数，还有一个随机变量x=As，A和x都是实数。令px(x)是x的概率密度，那么怎么求px(x)？

求解之前先看一个密度函数与分布函数之间的关系。
设一个概率密度函数（Probability density function,简称pdf）为f(x)，一个累积分布函数（Cumulative distribution function，简称cdf）为F(x)，它们之间的关系为：

F (x) f (x) = \int x f (x) d x = F' (x) (40)

以正态分布为例，它的概率密度函数与累积分布函数的图像如下图：

图八
一个很直观的感受就是，后者是由前者积分得到的，这也是符合式（40）的公式表示的。

关于概率密度的直接定义是：

F x (a) = P (X \leq a) = \int a - \infty f (x) d x (41)

关于px(x)的推导如下：

F x (x) p x (x) = P (X \leq x) = P (A s \leq x) = P (s \leq W x) = F s (W x) = F' x (x) = F' s (W x) = p s (W x) | W | (42)

ICA算法

这里使用最大似然估计来解释算法，我们假定每个si有概率密度ps，那么给定时刻原信号的联合分布就是：

p (s) = \prod i = 1 n p s (s i) (43)

这个式子有一个假设前提：每个人发出的声音信号各自独立。由式（42），我们有：

p (x) = p s (W x) | W | = | W | \prod i = 1 n p s (W T i x) (44)

前面提到过，如果没有先验知识，我们无法求得W和s。因此我们需要知道ps(sj)，我们打算选取一个概率密度函数赋给s，但是我们不能选取高斯分布的密度函数。在概率论里我们知道密度函数p(x)由累计分布函数（cdf）F(x)求导得到。F(x)要满足两个性质是：单调递增和在[0,1]。我们发现sigmoid函数很适合，定义域负无穷到正无穷，值域0到1，缓慢递增。我们假定s的累积分布函数符合sigmoid函数：

g (s) = 1 1 + e - s (45)

求导后有：

p s (s) = g' (s) = e s (1 + e s) 2 (46)

知道ps(s)之后，就剩下参数W了，给定训练样本{x(i);i=1,2,⋯,m}后，样本对数似然估计如下：

l (W) = log \prod i = 1 m p (x (i)) = \sum i = 1 m ⎛ ⎝ \sum j = 1 n log g' (W T i x (i)) + log | W | ⎞ ⎠ (47)

接下来就是对W求导了，这里牵涉一个问题是对行列式|W|进行求导的方法，属于矩阵微积分，这里直接给出结果：

\nabla W | W | = | W | (W - 1) T (48)

W最后的迭代公式如下，logg′(s)的导数为1−2g(s)，α是梯度上升速率，人为指定。：

W : = W + α ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 1 - 2 g (W T 1 x (i)) 1 - 2 g (W T 2 x (i)) ⋮ 1 - 2 g (W T n x (i)) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ x (i) T + (W T) - 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ (49)

4、后记

从11月初到3月底学习这份课程，再从4月到现在5月初把这6份总结写完，前后也是用了半年时间——这都是在业余时间完成的，鬼知道我经历了什么。最后写到这里，竟然是不知道说什么了。清明三天早10晚11把第一份总结写完，在假期最后一天9点多躺在床上的时候，没有什么快感，只有一种身体和脑子被掏空的感觉，现在也是。而且一直压制着想要直接做项目的冲动，我知道一旦直接去操作了，我应该就没有办法写下这样的东西了。
想要学习决策树，Boosting，神经网络，深度学习，还有这个课程中缺失的最后一部分关于强化学习的完整内容，还有其他的很多很多东西，到时候会边学边写，一个个来，像这次积累了这么多东西然后一次写完真是太难过了。但是回头一看，这些东西也还是太少了。接下来主要是做点项目，没学到又要用到的算法和知识到时候先求会用。
时间是最大的敌人，世界在变好，弱是原罪。
告一段落。

因子分析、主成分分析（PCA）、独立成分分析（ICA）——斯坦福CS229机器学习个人总结（六）