机器学习(周志华)个人学习笔记及习题解答(绪论)

绪论

术语:

样本:关于一个事件或对象的描述的一条记录

特征(属性):反映事件或对象在某方面的表现或性质的事项

属性值:属性上的取值

特征向量:将各个属性作为坐标轴,张成一个三维空间,每个西瓜都在里面找到一个点,每个点对应的一个向量称为特征向量。

训练数据:训练过程中使用的数据

训练集:训练样本组成的集合

学习任务{分类:想预测的是离散值;回归:想预测的是连续值}

测试:进行预测的过程

测试样本:被预测的样本

聚类:将训练集中的训练样本分成若干组。

簇:每组称为一个“簇”,这些自动形成的“簇”可能对应一些潜在的概念划分。

根据训练数据是否具有标记信息,将学习任务分为两大类{“监督学习:分类和回归”;“无监督学习:聚类”}

假设空间:

归纳:从特殊到一般的“泛化”过程

演绎:从一般到特殊的“特化”过程

归纳学习{狭义:从训练数据中学得概念(概念学习)

         广义:从样例中学习

假设空间:所有属性的可能性(可能取值)组合形成的假设

版本空间:一个与训练集一致的“假设集合”

归纳偏好:

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

奥卡姆剃刀原则:保持事物的简单化是对付复杂与繁琐的最有效方式

习题:

1.1

表1.1中1,4数据:

色泽:青绿 根蒂:蜷缩 敲声:浊响 好瓜:是

色泽:乌黑 根蒂:稍蜷 敲声:沉闷 好瓜:否

---------------------------------------------------------------------------------------------------------------------------------

版本空间:

(色泽=青绿)∧(根蒂=蜷缩)∧(敲声=浊响)

(色泽=青绿)∧(根蒂=∗)∧(敲声= ∗)

(色泽=∗)∧(根蒂=蜷缩)∧(敲声= ∗)

(色泽=∗)∧(根蒂= ∗)∧(敲声=浊响)

(色泽=青绿)∧(根蒂=蜷缩)∧(敲声= ∗)

(色泽=青绿)∧(根蒂=∗)∧(敲声=浊响)

(色泽=∗)∧(根蒂=蜷缩)∧(敲声=浊响)

 

1.2(不考虑冗余)

表1.1种 3种属性,分别有2,3,3种取值,所以假设空间中有3∗4∗4+1=49种假设。在不考虑沉余的情况下,最多包含k个合取式来表达假设空间,k的最大值是49,每次从中选出k个来组成析合式,一共有机器学习(周志华)个人学习笔记及习题解答(绪论)种可能。

1.3

通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。

归纳偏好:在训练过程中选择最多样本的假设。

1.4

考虑二分类:

机器学习(周志华)个人学习笔记及习题解答(绪论)

机器学习(周志华)个人学习笔记及习题解答(绪论)

                       =   机器学习(周志华)个人学习笔记及习题解答(绪论)

                        = 机器学习(周志华)个人学习笔记及习题解答(绪论)

                        = 机器学习(周志华)个人学习笔记及习题解答(绪论)

可以看出与学习算法无关

1.5

现代搜索引擎 

机器学习(周志华)个人学习笔记及习题解答(绪论)

 

机器学习在搜素中的一些环节所起的作用

在需求分析中作用:特征表示,Term重要性计算,实体属性识别,Query分类

在网页分析中作用:页面赋权,网页过滤和筛选

在搜素结果评估中应用