机器学习概要3

31 | 建模连续分布:高斯网络

  • 高斯网络采用高斯线性模型建模连续变量,其数字特征为均值向量和协方差矩阵;
  • 高斯贝叶斯网络利用多元高斯分布生成独立图,利用信息矩阵计算网络中的条件概率;
  • 高斯马尔可夫随机场具有成对马尔可夫性,通过高斯分布可以确定结点势和边势;
  • 混合网络是同时具有离散型结点和连续型结点的概率图模型。

机器学习概要3

32 | 从有限到无限:高斯过程

  • 高斯过程由无穷多个随机变量组成,定义的是函数的先验分布;
  • 函数空间上的高斯过程是核技巧在概率模型中的应用,通过定义因变量之间的相关性计算输出;
  • 参数空间上的高斯过程是在高维空间中进行贝叶斯的回归分析;
  • 高斯过程可以通过等价核、似然概率和高斯先验与其他模型联系起来。

机器学习概要3

33 | 序列化建模:隐马尔可夫模型

  • 隐马尔可夫模型由隐藏的状态序列和可见的观测序列构成,能够对时序依赖关系建模;
  • 隐马尔可夫模型的定量描述包括初始状态向量、状态转移矩阵和观测矩阵三部分;
  • 作为生成模型,隐马尔可夫可以视为混合模型的推广;
  • 隐马尔可夫模型的判别方法对应是条件随机场。

机器学习概要3

34 | 连续序列化模型:线性动态系统

  • 线性动态系统是具有连续状态变量的隐马尔可夫模型,所有条件概率都是线性高斯分布;
  • 线性动态系统的求解是根据先验置信状态和观测结果来更新系统的置信状态;
  • 卡尔曼滤波器可以对线性动态系统进行精确求解;
  • 当系统具有非线性和非高斯特性时,可以通过扩展卡尔曼滤波器、无迹卡尔曼滤波器和粒子滤波等方法求解

机器学习概要3

35 | 精确推断:变量消除及其拓展

  • 推断是利用图结构表示的概率分布计算查询变量的概率,可以分为精确推断和近似推断;
  • 变量消除通过对非查询变量的边际化处理实现精确推断,具体步骤包括因子乘机和变量求和;
  • 置信传播通过消息传递实现精确推断,具有较高的计算效率;
  • 将图模型改造成团树结构可以保证置信传播算法的收敛性。

机器学习概要3

36 | 确定近似推断:变分贝叶斯

  • 变分贝叶斯推断是基于确定性近似的推断方法;
  • 变分贝叶斯用简单的近似分布来拟合真实的后验分布,并利用平均场分解简化对变分下界的优化;
  • 变分消息传播可以在贝叶斯网络上实现变分推断;
  • 变分贝叶斯和 EM 算法都是对隐变量的处理,可以从统一的角度分析。

机器学习概要3

37 | 随机近似推断:MCMC

  • MCMC 是基于随机性近似的推断方法;
  • MCMC 利用基于蒙特卡洛方法的随机采样将任意的初始分布转化为马尔可夫链的稳态分析;
  • MCMC 的关键问题是找到和目标稳态分布匹配的转移矩阵;
  • MCMC 的典型方法包括一维的 MH 算法和多维的吉布斯采样。

机器学习概要3

38 | 完备数据下的参数学习:有向图与无向图

  • 参数学习的任务是在已知模型结构的前提下估计其参数,可以看成是模型的训练;
  • 贝叶斯网络的参数学习可以由整体分解为局部,在局部上应用最大似然估计或者最大后验估计;
  • 马尔可夫随机场的参数学习不能分解,也不存在解析解,可以使用通用的迭代比例拟合方法找到全局最优解;
  • 马尔可夫随机场的参数学习可以通过近似推理和目标函数替换加以简化。

机器学习概要3

39 | 隐变量下的参数学习:EM方法与混合模型

  • 期望最大化算法通过迭代来求解令观测结果似然概率最大化的未知参数;
  • 期望步骤计算完备数据的似然概率关于隐变量的数学期望;
  • 最大化步骤通过最大化期望步骤的结果来计算新的参数估计值;
  • 期望最大化算法主要用于高斯混合模型等含有隐变量的概率图模型的学习。

机器学习概要3

40 | 结构学习:基于约束与基于评分

  • 结构学习的任务是找到与数据匹配度最高的网络结构,需要同时确定图模型的结构和参数;
  • 基于约束的结构学习通过条件独立性的约束确定贝叶斯网络的结构,需要先后确定边的存在性和方向;
  • 基于评分的结构学习通过数据和结构的匹配度确定贝叶斯网络的结构,包括选择评分函数和搜索最优结构两个步骤;
  • 对不完备数据实施结构学习可以使用结构 EM 算法。

机器学习概要3