机器学习(周志华)读书笔记---第10章 降维
10.1 k近邻学习
工作机制:
k近邻是懒惰学习的代表,没有显式的训练过程,和 急切学习 相反
K近邻学习受k值和距离计算方式的影响
当k=1,分析错误率,即最近邻分类器
10.2 低维嵌入
维数灾难:
在高维情况下出现的数据样本稀疏,距离计算困难等问题
解决方案:
降维,通过某种数学变换,将原始高维属性空间转变为一个低维子空间,在这个子空间中样本密度大幅度提高,距离计算也变得更为困难。
为什么降维?
数据样本虽是高维的,但与学习任务密切相关的也许仅是某个低维分布,即高维空间的一个低维嵌入。
10.3 主成分分析
PCA:将多个特征综合为少数几个代表性特征。
降维原理:
维数的选择:
10.4 核化线性降维
线性降维方法假设从高维空间到低维空间的函数映射是线性的,然而,在不少现实任务中,可能需要非线性映射才能找到恰当的低维嵌入。
若不存在一个划分超平面,那么升维。
核化主成分分析(KPCA)
多维缩放:要求原始空间中样本之间的距离在低维空间中得以保持,MDS算法
10.5 流形学习
流形学习是一类借鉴了拓扑流形概念的降维方法
10.5.1 等度量学习
高维空间中的直线距离在低维嵌入流形上不可到达,低维嵌入流形上两点间的本真距离是 测地线距离。Isomap算法
基本步骤:构造近邻图-》基于最短路径算法近似任意两点之间的测地线距离-》基于距离矩阵通过MDS获得低维嵌入
10.5.2 局部线性嵌入
LLE:试图保持领域内的线性关系,并使得该线性关系在降维后的空间中继续保持
10.6 度量学习
直接学出合适的距离度量
马氏距离: