《机器学习》读书笔记——第一章 绪论
本章内容是在阅读《机器学习》的过程中记录的学习笔记,这本书是机器学习领域的经典书籍,作者是周志华老师。
目录
- 引言
- 基本术语
- 假设空间
- 归纳偏好
引言
机器学习致力于研究如果通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法。本书中用“模型”泛指从数据中学得的结果。
[Mitchell,1997]给出了一个更形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,如果一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
基本术语
中文名 | 英文名 | 含义 |
---|---|---|
数据集 | data set | |
示例/样本 | instance/sample | 数据集中的每条记录是关于一个事件或对象的描述,成为示例或样本 |
属性/特征 | attribute/feature | 反应事件或对象在某方面的表现或性质的事项 |
属性值 | attribute value | |
属性空间/样本空间/输入空间 | attribute space/sample space | 属性张成的空间 |
特征向量 | feature vector | 由于空间中的每个点对应一个坐标向量,因此我们也把一个示例成为一个“特征向量” |
学习/训练 | learning/training | 从数据中学得模型的过程 |
训练数据 | training data | 训练过程中训练的数据 |
训练样本 | training sample | 训练数据中的每个样本 |
训练集 | training set | 训练样本组成的集合 |
假设 | hypothesis | 学得模型对应了关于数据的某种潜在的规则 |
真相/真实 | ground-truth | 潜在规则自身 |
标记 | label | 示例结果 |
标记空间/输出空间 | label space | 标记的集合 |
分类 | classification | 预测离散值 |
回归 | regression | 预测连续值 |
二分类 | binary classification | 只涉及两个类别时的分类,其中一个类为正类(positive class),另一个为负类(negative class) |
多分类 | multi-class classification | 设计多个类别时 |
测试 | testing | 学得模型后,使用其进行预测的过程 |
测试样本 | testing sample | 被测试的样本 |
聚类 | clustering | 将训练集分成若干组,分一个组称为”簇“(cluster),这些簇可对应一些潜在的概念划分 |
泛化 | generalization | 学得模型适用于新样本的能力 |
分布 | distribution | 通常假设样本空间中的全体样本服从一个未知分布 |
独立同分布 | independent and identically distributed(简称i.i.d.) | 每个样本在其分布中都是独立的 |
根据训练数据是否拥有标记信息,学习任务分类两类
监督学习(supervised learning) | 无监督学习(unsupervised learning) |
---|---|
分类、回归 | 聚类 |
假设空间
归纳(induction)和演技(deduction)是科学推理的两大基本手段。归纳是从特殊到一般的”泛化“(generalization)过程,演绎是从一般到特殊的”特化“(specialization)过程。从样例中学习是一个归纳过程,因此称为”归纳学习“(induction learning)。
归纳学习可有侠义和广义之分。侠义的归纳学习是指从训练数据中学得概念(concept),也成为”概念学习“,广义的归纳学习是指从样例中学习。
example
已知西瓜训练数据集如下:
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍卷 | 沉闷 | 否 |
我们把学习的过程看作是对所有假设空间进行搜索的过程,搜索目的是找到与训练集匹配(fit)的假设。西瓜的色泽可以是青绿、乌黑、浅白这三种,也可是其中任意色泽,根一次类推,根蒂、敲声都有四种假设,还有一种可能是世界上并不存在好瓜。则假设空间大小为444+1=65。假设空间如图所示:
我们现在对假设空间进行搜索,搜索过程中删除与正例不一致的假设和(或)与反例一致的假设,最后剩下与训练集一致的假设。与训练集一致的假设集合称为”版本空间“(version space),如下图所示:
归纳偏好
我们得到的版本空间中有三个假设匹配训练数据集,那么我们选择哪一个假设更科学呢?这就涉及到归纳偏好问题了。我们在学习过程中,对某种类型假设的偏好,称为”归纳偏好“(induction bias)。
”奥卡姆剃刀“是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观测一致,则选择最简单的那一个”。但遗憾的是,“没有免费的午餐”定理(No Free Lunch Theorem,简称NFL定理)告诉我们,在所有问题出现的机会相同、或所有问题同等重要的情境下,不同算法的期望性能是相同的。因为若要考虑所有潜在的问题,则所有学习算法都一样好,要谈论算法的相对优劣,必须要针对具体的学习问题。