2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下

1.PCA – Another Point of View

另外一种解释方法就是,用多个component来线性表示原来的样本,最小化reconstruction error,
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下
最后利用svd求解方程,得到的U矩阵就是协方差矩阵的k个特征向量
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下

2.PCA和network之间的关系:

由于w之间时互相正交的,CK,也就是说c可以表示成这两者的乘积,PCA由此呢,也可以看成是Autoencoder,即具有一层隐含层的神经网络(线性**函数),即输入和输出之间的误差越小越好。如果不是传统的PCA的方法,只用neural network的解法不能够保证w之间是垂直的。但是如果用网络的话,可以用deep autoencode。
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下

3.PCA的缺点:

a.如果是PCA的话,只能将所有样本映射到方差最大的维度上,但是这种方式可能使得不同label的样本重合在一起,难以区分。可以用LDA(Linear Discriminate Analysis)考虑,不过这种方式是supervised Learning。
b.PCA的另外一个缺点就是线性的,PCA难以将S型曲面拉直,只是会将曲面压扁,而不是拉开,但是仍然会存在不同label样本的重合。
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下
比重
计算每个维度上的variance,然后看每个维度上variance所占的比重,取前几个占有较大比重特征就好了。
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下
PCA的component不一定是样本的一部分,有可能包含了整个样本或者与样本完全不一样的东西,但是它们的线性组合可以构成一个样本。这种现象可以用NMF来解决。
对宝可梦做PCA
每个宝可梦是六维向量,计算出6个特征值,计算6个特征值的ratio,舍去较小的(只取前四个特征值的特征向量作为新的特征,或者叫主成分PC)。特征值的意义是,PCA降维时,在相应维度的variance有多大。
每个PC都是一个六维向量,分析它们在哪个维度是大的正值/负值,可以分析出这个PC所代表的意义。

对人脸做PCA
对人脸,取前30个PC,每个PC拼成image,发现都是脸,而不是脸的一部分。
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下
对数字和人脸做NMF
得到的都是“部分”:
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下

4.Matrix Factorization

例如:人买公仔,人和公仔背后都有共同的隐藏属性影响人买多少公仔。
我们要从购买记录(矩阵)中推断出latent factor,latent factor的数目需要事先定好。
对矩阵做SVD,SVD的中间矩阵可以并到左边矩阵或右边矩阵。
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下
有missing data怎么办?用gradient descent做,先定义loss function L(只考虑有定义的数据)。
得到ra,rb,rc并不知道每个维度代表什么属性,需要事后分析。
已知姐寺与小唯属于天然呆类型、春日与炮姐属于傲娇类型,所以第一个维度代表天然呆,第二个维度代表傲娇。
2020李宏毅学习笔记——42.Unsupervised learning Linear Methods下