机器学习概要2
19 | 非参数化的局部模型:K近邻
- 基于实例的学习方法学的不是明确的泛化模型,而是样本之间的关系;
- k近邻算法是非参数的局部化模型,具有无需训练的优点,但分类新实例的计算复杂度较高;
- k 近邻算法的性能取决于超参数 k 的取值和距离的定义方式;
- 核方法和近邻算法都可以用于数据的概率密度估计。
20 | 基于距离的学习:聚类与度量学习
-
聚类分析是一类描述模型,它将数据按照相似度分成不同的簇;
-
k 均值算法根据距离来判定数据的聚类;
-
从概率角度看,k均值算法是高斯混合模型的一种特例;
-
度量学习的任务是构造出适合于给定问题的距离度量或相似度的度量。
21 | 基函数扩展:属性的非线性化
- 基扩展将线性回归中的自变量替换为非线性的函数,使模型能够描述非线性关系;
- 多项式回归将回归结果表示为属性的多项式之和;
- 样条方法将回归结果表示为若干非线性函数的组合,可以分为回归样条和平滑样条;
- 广义可加模型是对多元线性回归的基扩展。
22 | 自适应的基函数:神经网络
神经网络是一类非线性模型,利用非线性的**函数对输入的线性组合进行分类;
神经网络可以通过误差反向传播自适应地调整网络结构中的参数;
神经网络中隐藏层的作用是构造出新的导出特征;
用贝叶斯方法分析神经网络时,需要使用近似方法来应对非线性导致的计算问题。
23 | 层次化的神经网络:深度学习
- 深度神经网络是具有层次化结构的多层神经网络;
- 深度神经网络采用分布式表示,提升了网络结构的表达能力和学习能力;
- 深度神经网络是一组堆叠起来的广义线性模型;
- 深度学习能够找到高维数据所对应的低维流形。
24 | 深度编解码:表示学习
- 编解码结构可以重构数据的表示方式,提取出高层次的特征;
- 自编码器将编码器和解码器集成到同一个深度网络中,是一种无监督的生成模型;
- 卷积神经网络和循环神经网络都可以用来构造编解码结构;
- 表示学习也叫特征学习,是让机器自动提取数据特征的技术。
25 | 基于特征的区域划分:树模型
- 决策树是局部化的非参数模型;
- 决策树生成算法先将特征空间划分成若干区域,再在每个区域上拟合输出;
- 决策树能够更加灵活地刻画不同属性之间的相互作用;
- 决策树可以看成最简单的集成模型。
26 | 集成化处理:Boosting与Bagging
- 集成学习可以将多个弱学习器组合成强学习器,是模型的融合方法;
- 提升方法通过重新分配数据的权重来改善弱学习器,可以提升模型的偏差性能;
- 装袋方法通过重新采样数据来改善弱学习器,可以提升模型的方差性能;
- 堆叠方法通过重新构造输出来改善弱学习器,可以看成广义的模型选择。
27 | 万能模型:梯度提升与随机森林
- 梯度提升决策树和随机森林都是在各类问题上表现优异的通用模型;
- 梯度提升决策树是提升方法的推广,利用上一轮次的梯度信息构造决策树;
- 随机森林是装袋方法的推广,利用属性随机化和数据随机化构造决策树;
- 误差 - 分歧分解解释了集成学习强调基学习器多样性的原因。
28 | 最简单的概率图:朴素贝叶斯
- 朴素贝叶斯是最简单的概率图模型,具有发散的星型结构;
- 朴素贝叶斯能够计算属性和类别的联合分布,因而属于生成模型;
- 共轭先验可以保证先验分布和后验分布具有相同的形式和不同的参数;
- 拉普拉斯平滑的作用是给类别设定均匀分布的共轭先验。
29 | 有向图模型:贝叶斯网络
- 贝叶斯网络是有向无环图,可以用于因果推断;
- 贝叶斯网络既是具有条件独立性的随机变量的联合分布,也是联合概率分布的因子分解结果;
- 贝叶斯网络中的条件独立性可以通过 d 连通路径和 d隔离性描述;
- 贝叶斯网络的概率分布描述和独立图描述可以相互转换。
30 | 无向图模型:马尔可夫随机场
- 马尔可夫随机场是无向图,可以用于建模变量之间的相互作用;
- 马尔可夫随机场与可以进行因子分解的吉布斯分布等价;
- 马尔可夫随机场中的条件独立性可以分为全局性、局部性和成对性;
- 马尔可夫随机场和贝叶斯网络可以相互转化。