降维技术
1、背景
高维数据的维数灾难
在高维情况下出现的数据稀疏,计算距离困难情况下,是所有机器学习都要面临的严峻问题,称为维数灾难。
当一个维度上的数据相对较多时,增加维度会拉伸该维度上的点,使它们更加分开,导致更加稀疏,由于等距离,距离测量变得毫无意义。
2、降维技术概述
数据降维,也称维数约简(Dimensionality Reduction),即降低数据的维数,将原始高维特征空间中的点向一个低维空间投影,新的空间维度低于原始特征空间,所以维数减少了。
在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
2.1 降维具有如下一些优点:
- 1) 使得数据集更易使用。
- 2) 降低算法的计算开销。
- 3) 去除噪声。
- 4) 使得结果容易理解。
2.2 解决尾数灾难的两个方法:
- 特征选择,参考上一篇文章:https://blog.****.net/qq_19446965/article/details/104229910
- 特征降维
2.3 降维效果的评估
- 比较降维前后学习器的性能;
- 降维到二维或者三维,可通过可视化技术来直观判断降维效果,增加可解释性;
3、无监督线性降维
3.1 PCA
PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
具体原理请参考另一篇文章:https://blog.****.net/qq_19446965/article/details/82078225
3.2 SVD
具体原理请参考另一篇文章:https://blog.****.net/qq_19446965/article/details/82078313
3.3 PCA在人脸识别中的应用:Eigenface
先用PCA降维,再利用最近邻分类器判断
参考链接:https://blog.****.net/kuweicai/article/details/79330524
4、有监督线性降维
4.1 LDA
具体原理请参考另一篇文章:https://blog.****.net/qq_19446965/article/details/82078379
4.2 PCA在人脸识别中的应用:FisherFace
FisherFace 是一种基于LDA(全称Linear Discriminant Analysis, 线性判别分析)的人脸识别算法,而LDA是Ronald Fisher于193年提出来的,所以LDA也被称作是Fisher Discriminant Analysis, 也正因为如此,该人脸识别算法被称为FisherFace。参考链接:https://blog.****.net/kuweicai/article/details/79330524
5、非线性降维
流形学习
非线性降维假设:数据在高维空间的一个非线性流形上,如果这个流形维数很低,那么数据可以在低维空间可视化;
流形学习是一类借鉴了拓扑流形概念的降维方法,与核PCA的目的一样,它想要在低维空间中尽量保持在高维空间中的结构。一个形象的流形降维过程如下图,我们有一块卷起来的布,我们希望将其展开到一个二维平面,我们希望展开后的布能够在局部保持布结构的特征,其实也就是将其展开的过程,就像两个人将其拉开一样。
流形学习降维利用“近邻保持”的思想。如等度量映射(Isomap)在降维前后保持近邻样本之间的距离,局部线性嵌入(LLE)则是保持领域内样本之间的线性关系。
5.1 等度量映射(ISOMAP)
待续。。。
5.2 局部线性嵌入(LLE)
待续。。。
————————————————————————
参考:
http://mp.ofweek.com/iot/a645673321766