您的位置: 首页 > 文章 > [李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

分类: 文章 • 2023-03-28 18:44:39

Clustering 聚类

K-means

[李宏毅-机器学习]无监督学习 unsupervised learning

Hierarchical Agglomerative Clustering

[李宏毅-机器学习]无监督学习 unsupervised learning

Dimension Reduction 降维

PCA

[李宏毅-机器学习]无监督学习 unsupervised learning

找到一个方向w1，使得数据x投影在这个方向上，方差最大，这样在这个维度上还可以轻易区分各个数据z1

当需要投影到多维的时候，再找一个方向w2，使得x投影在这上方差最大，其中w2和w1是垂直的

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

w1是方差矩阵S的对应特征值最大的特征向量

[李宏毅-机器学习]无监督学习 unsupervised learning

w2是方差矩阵S的对应特征值最二大的特征向量

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

使用SVD分解X得到

[李宏毅-机器学习]无监督学习 unsupervised learning

k为要压缩的维度，即找到的特征值前k大的特征向量组成U

PCA可以看作自编码器，但是缺少各个维度的垂直限制

[李宏毅-机器学习]无监督学习 unsupervised learning

寻找每个人的潜在属性，可以使用SVD

[李宏毅-机器学习]无监督学习 unsupervised learning

如果缺少部分数据，只使用已知的数据进行梯度下降求解

[李宏毅-机器学习]无监督学习 unsupervised learning

Wrod Embedding

词语的one-hot编码太占空间，并且不能体现词和词之间的关系

embedding就是将这些词投影到其他空间，在这个空间上，可以体现词和词之间的关系

[李宏毅-机器学习]无监督学习 unsupervised learning

将wi-1的onehot编码输入网络，网络的输出是wi-1下一个词的预测概率，网络的隐含层Z就是预测出的wi的embeding

可以使用前多个词，来预测下一个词

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

w1应该等于w2

这点应该就是wi-2和wi-1是无序的，颠倒顺序也要得到相同的输出

这样为什么不直接将wi-2+wi-1得到结果直接作为输入？

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

Neighbor Embedding

local linear embedding（LLE）

[李宏毅-机器学习]无监督学习 unsupervised learning

wij已知，求zi zj，要选取计算几个neighbor

Laplacian Eigenmaps 拉普拉斯特征映射

[李宏毅-机器学习]无监督学习 unsupervised learning

t-SNE t-distributed stochastic neighbor embedding

之前的方法，只考虑的同一class的点，在新空间中也要很接近，但是对于不同class的点没有使他们的距离更远，因此得到的接过，不同类别的点也都会聚集在一起，不利于可视化

[李宏毅-机器学习]无监督学习 unsupervised learning

[李宏毅-机器学习]无监督学习 unsupervised learning

其中t-SNE使考虑每个点和其他所有点的similarity，计算量比较大

因此可能会先使用其他方法做降维，然后再用t-SNE降到两维

[李宏毅-机器学习]无监督学习 unsupervised learning

t-SNE在新空间的similiary的函数是使用了t分布，与原空间的simliliary函数不同

在原来空间，距离很近，则新空间中，距离也很近

在原来空间，距离很远，则新空间中，距离会变得更远

因此不同类别之间的距离会拉开，更有利用可视化

[李宏毅-机器学习]无监督学习 unsupervised learning