《机器学习》读书笔记——第一章绪论

本章内容是在阅读《机器学习》的过程中记录的学习笔记，这本书是机器学习领域的经典书籍，作者是周志华老师。

引言
基本术语
假设空间
归纳偏好

引言

机器学习致力于研究如果通过计算的手段，利用经验来改善系统自身的性能。机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”（model）的算法。本书中用“模型”泛指从数据中学得的结果。
[Mitchell,1997]给出了一个更形式化的定义：假设用P来评估计算机程序在某任务类T上的性能，如果一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

基本术语

中文名	英文名	含义
数据集	data set
示例/样本	instance/sample	数据集中的每条记录是关于一个事件或对象的描述，成为示例或样本
属性/特征	attribute/feature	反应事件或对象在某方面的表现或性质的事项
属性值	attribute value
属性空间/样本空间/输入空间	attribute space/sample space	属性张成的空间
特征向量	feature vector	由于空间中的每个点对应一个坐标向量，因此我们也把一个示例成为一个“特征向量”
学习/训练	learning/training	从数据中学得模型的过程
训练数据	training data	训练过程中训练的数据
训练样本	training sample	训练数据中的每个样本
训练集	training set	训练样本组成的集合
假设	hypothesis	学得模型对应了关于数据的某种潜在的规则
真相/真实	ground-truth	潜在规则自身
标记	label	示例结果
标记空间/输出空间	label space	标记的集合
分类	classification	预测离散值
回归	regression	预测连续值
二分类	binary classification	只涉及两个类别时的分类，其中一个类为正类（positive class），另一个为负类（negative class）
多分类	multi-class classification	设计多个类别时
测试	testing	学得模型后，使用其进行预测的过程
测试样本	testing sample	被测试的样本
聚类	clustering	将训练集分成若干组，分一个组称为”簇“（cluster），这些簇可对应一些潜在的概念划分
泛化	generalization	学得模型适用于新样本的能力
分布	distribution	通常假设样本空间中的全体样本服从一个未知分布
独立同分布	independent and identically distributed(简称i.i.d.)	每个样本在其分布中都是独立的

根据训练数据是否拥有标记信息，学习任务分类两类

监督学习（supervised learning）	无监督学习（unsupervised learning）
分类、回归	聚类

假设空间

归纳（induction）和演技（deduction）是科学推理的两大基本手段。归纳是从特殊到一般的”泛化“（generalization）过程，演绎是从一般到特殊的”特化“（specialization）过程。从样例中学习是一个归纳过程，因此称为”归纳学习“（induction learning）。
归纳学习可有侠义和广义之分。侠义的归纳学习是指从训练数据中学得概念（concept），也成为”概念学习“，广义的归纳学习是指从样例中学习。
example
已知西瓜训练数据集如下：

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	稍卷	沉闷	否

我们把学习的过程看作是对所有假设空间进行搜索的过程，搜索目的是找到与训练集匹配（fit）的假设。西瓜的色泽可以是青绿、乌黑、浅白这三种，也可是其中任意色泽，根一次类推，根蒂、敲声都有四种假设，还有一种可能是世界上并不存在好瓜。则假设空间大小为444+1=65。假设空间如图所示：《机器学习》读书笔记——第一章绪论
我们现在对假设空间进行搜索，搜索过程中删除与正例不一致的假设和（或）与反例一致的假设，最后剩下与训练集一致的假设。与训练集一致的假设集合称为”版本空间“（version space），如下图所示：
《机器学习》读书笔记——第一章绪论

归纳偏好

我们得到的版本空间中有三个假设匹配训练数据集，那么我们选择哪一个假设更科学呢？这就涉及到归纳偏好问题了。我们在学习过程中，对某种类型假设的偏好，称为”归纳偏好“（induction bias）。
”奥卡姆剃刀“是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观测一致，则选择最简单的那一个”。但遗憾的是，“没有免费的午餐”定理（No Free Lunch Theorem,简称NFL定理）告诉我们，在所有问题出现的机会相同、或所有问题同等重要的情境下，不同算法的期望性能是相同的。因为若要考虑所有潜在的问题，则所有学习算法都一样好，要谈论算法的相对优劣，必须要针对具体的学习问题。

《机器学习》读书笔记——第一章 绪论

引言

基本术语

假设空间

归纳偏好

相关推荐

《机器学习》读书笔记——第一章绪论