李宏毅 DeepLearning-2017-Unsupervised Learning PCA-linear Dimension Reduction
化繁为简:把比较复杂的input变成比较简单的output
无中生有:generation 找个可以画图的function
降维表达的意义:
不同的image用同一个cluster,做降维处理,那么如何确定设置多少个cluster呢???
第一把输入数据分成K个cluster
每个cluster都找一个center,作为初始center,(k random Xn from X)从train data中抽
第二种;tree clustering 哈夫曼树,与上面的区别在于不直接决定有几个cluster
五个样做:两两计算相似度
设置一个 threshold 决定树的分层位置
这有个不好的地方是,属于绝对分类,每个输入对象必须属于某一个固定的聚类
然后我们看看分布的表达方式,用vector表示输入对象,
Distributed Representation 的方法
最简单的方法:
1)Feature selection
2)Principle component analisis(PCA)
下面把一组数据降到以为,w也是一个一维向量,W1是高维空间的一个vetcor,而z是高维空间的点在W1上的投影,那么如何选取W1,选择w1的标准是:投影之后,Z1的分布越大越好。差异性,奇异度变大。
计算W的方法:
利用拉格朗日乘:把有约束变成没有约束
奇异值矩阵分析,中心化,只有一个hidden layer
去掉imformation较少的feature,这是选择principle components的个数