绪论

术语:

样本：关于一个事件或对象的描述的一条记录

特征（属性）：反映事件或对象在某方面的表现或性质的事项

属性值：属性上的取值

特征向量：将各个属性作为坐标轴，张成一个三维空间，每个西瓜都在里面找到一个点，每个点对应的一个向量称为特征向量。

训练数据：训练过程中使用的数据

训练集：训练样本组成的集合

学习任务{分类：想预测的是离散值；回归：想预测的是连续值}

测试：进行预测的过程

测试样本：被预测的样本

聚类：将训练集中的训练样本分成若干组。

簇：每组称为一个“簇”，这些自动形成的“簇”可能对应一些潜在的概念划分。

根据训练数据是否具有标记信息，将学习任务分为两大类{“监督学习：分类和回归”；“无监督学习：聚类”}

假设空间：

归纳：从特殊到一般的“泛化”过程

演绎：从一般到特殊的“特化”过程

归纳学习{狭义：从训练数据中学得概念（概念学习）

广义：从样例中学习

假设空间：所有属性的可能性（可能取值）组合形成的假设

版本空间：一个与训练集一致的“假设集合”

归纳偏好：

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好

奥卡姆剃刀原则：保持事物的简单化是对付复杂与繁琐的最有效方式

习题：

1.1

表1.1中1，4数据：

色泽：青绿根蒂：蜷缩敲声：浊响好瓜：是

色泽：乌黑根蒂：稍蜷敲声：沉闷好瓜：否

---------------------------------------------------------------------------------------------------------------------------------

版本空间：

（色泽＝青绿）∧（根蒂＝蜷缩）∧（敲声＝浊响）

（色泽＝青绿）∧（根蒂＝∗）∧（敲声＝ ∗）

（色泽＝∗）∧（根蒂＝蜷缩）∧（敲声＝ ∗）

（色泽＝∗）∧（根蒂＝ ∗）∧（敲声＝浊响）

（色泽＝青绿）∧（根蒂＝蜷缩）∧（敲声＝ ∗）

（色泽＝青绿）∧（根蒂＝∗）∧（敲声＝浊响）

（色泽＝∗）∧（根蒂＝蜷缩）∧（敲声＝浊响）

1.2（不考虑冗余）

表1.1种 3种属性，分别有2，3，3种取值，所以假设空间中有3∗4∗4+1=49种假设。在不考虑沉余的情况下，最多包含k个合取式来表达假设空间，k的最大值是49，每次从中选出k个来组成析合式，一共有机器学习（周志华）个人学习笔记及习题解答（绪论）种可能。

1.3

通常认为两个数据的属性越相近，则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类，则认为它属于与他最临近几个数据的属性。

归纳偏好：在训练过程中选择最多样本的假设。

1.4

考虑二分类:

机器学习（周志华）个人学习笔记及习题解答（绪论）

= 机器学习（周志华）个人学习笔记及习题解答（绪论）

可以看出与学习算法无关

1.5

现代搜索引擎

机器学习（周志华）个人学习笔记及习题解答（绪论）

机器学习在搜素中的一些环节所起的作用

在需求分析中作用：特征表示，Term重要性计算，实体属性识别，Query分类

在网页分析中作用：页面赋权，网页过滤和筛选

在搜素结果评估中应用

机器学习（周志华）个人学习笔记及习题解答（绪论）

绪论

术语:

假设空间：

归纳偏好：

习题：

相关推荐