[李宏毅-机器学习]无监督学习 unsupervised learning

Clustering 聚类

K-means

[李宏毅-机器学习]无监督学习 unsupervised learning

Hierarchical Agglomerative Clustering

[李宏毅-机器学习]无监督学习 unsupervised learning

 

Dimension Reduction 降维

PCA

[李宏毅-机器学习]无监督学习 unsupervised learning

找到一个方向w1,使得数据x投影在这个方向上,方差最大,这样在这个维度上还可以轻易区分各个数据z1

当需要投影到多维的时候,再找一个方向w2,使得x投影在这上方差最大,其中w2和w1是垂直的

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

w1是方差矩阵S的对应特征值最大的特征向量

[李宏毅-机器学习]无监督学习 unsupervised learning

w2是方差矩阵S的对应特征值最二大的特征向量

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

 

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

使用SVD分解X得到

[李宏毅-机器学习]无监督学习 unsupervised learning

k为要压缩的维度,即找到的特征值前k大的特征向量组成U

 

PCA可以看作自编码器,但是缺少各个维度的垂直限制

[李宏毅-机器学习]无监督学习 unsupervised learning

寻找每个人的潜在属性,可以使用SVD

[李宏毅-机器学习]无监督学习 unsupervised learning

如果缺少部分数据,只使用已知的数据进行梯度下降求解

[李宏毅-机器学习]无监督学习 unsupervised learning

 

Wrod Embedding

词语的one-hot编码太占空间,并且不能体现词和词之间的关系

embedding就是将这些词投影到其他空间,在这个空间上,可以体现词和词之间的关系

[李宏毅-机器学习]无监督学习 unsupervised learning

将wi-1的onehot编码输入网络,网络的输出是wi-1下一个词的预测概率,网络的隐含层Z就是预测出的wi的embeding

可以使用前多个词,来预测下一个词

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

w1应该等于w2

这点应该就是wi-2和wi-1是无序的,颠倒顺序也要得到相同的输出

这样为什么不直接将wi-2+wi-1得到结果直接作为输入?

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

 

Neighbor Embedding

local linear embedding(LLE)

[李宏毅-机器学习]无监督学习 unsupervised learning

wij已知,求zi zj,要选取计算几个neighbor

 

Laplacian Eigenmaps 拉普拉斯特征映射

[李宏毅-机器学习]无监督学习 unsupervised learning

 

t-SNE t-distributed stochastic neighbor embedding

之前的方法,只考虑的同一class的点,在新空间中也要很接近,但是对于不同class的点没有使他们的距离更远,因此得到的接过,不同类别的点也都会聚集在一起,不利于可视化

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

其中t-SNE使考虑每个点和其他所有点的similarity,计算量比较大

因此可能会先使用其他方法做降维,然后再用t-SNE降到两维

[李宏毅-机器学习]无监督学习 unsupervised learning

t-SNE在新空间的similiary的函数是使用了t分布,与原空间的simliliary函数不同

在原来空间,距离很近,则新空间中,距离也很近

在原来空间,距离很远,则新空间中,距离会变得更远

因此不同类别之间的距离会拉开,更有利用可视化

[李宏毅-机器学习]无监督学习 unsupervised learning