机器学习(周志华)笔记——第一章 绪论

重要概念

1. 机器学习的定义

  假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

2. 机器学习任务的类型

监督学习:

分类 (classification): 通过训练样本对模型进行训练,之后对测试样本预测离散值
回归 (regression):通过训练样本对模型进行训练,之后对测试样本预测连续值

无监督学习:

聚类 (clustering):将训练集中的样本分成若干个组,每组成为一个“簇”,通过这些自动生成的“簇”可以获得一些潜在的概念划分。与监督学习不同的是,无监督学习的训练样本通常不拥有标记信息。

3. 归纳偏好

  对于有限个点组成的训练集,存在多种模型参数能够与之相匹配,这时,我们的模型算法必须具有某种“偏好”,才能产生出它认为“正确”的模型。如下图所示,曲线A和B都是对训练样本的正确拟合,如果认为相似的样本应当有相似的输出,那么相应的学习算法偏好比较“平滑”的曲线A而非比较陡峭的曲线B。
机器学习(周志华)笔记——第一章 绪论

“奥卡姆剃须刀”原则

  14世纪英格兰的逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)在《箴言书注》2卷15题说“切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。”这一原则在自然科学以及机器学习中则表现为:“若有多个假设与观察一致,则选最简单的那个”。如果采用这个原则,对于多项式拟合,我们会尽量采用次数较低的,系数相对较小的多项式。对于上图中的模型,我们会更偏好于采用二次曲线A而非高次曲线B来进行拟合。

“没有免费的午餐”定理(NFL)

  NLF定理的内容分为四个部分:
  1)对所有可能的的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值相同;
  2)对任意固定的训练集,对所有的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;
  3)对所有的先验知识求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;
  4)对任意固定的训练集,对所有的先验知识求平均,得到的所有学习算法的的“非训练集误差”的期望值也相同。

  这四部分内容看上去有些绕,但实质上都是为了阐明一件事情——没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。

  也许有人会好奇,既然胡乱猜的“算法”也有可能是”最好“的算法,那么机器学习的意义何在?

  这里就不得不提到NFL定理的一个重要前提,“所有的目标函数出现的可能性相同”或者“所有的先验知识出现的可能性相同”,而现实生活中情况却并非如此。所以,NFL定理最重要意义是,在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。