机器学习(周志华)个人学习笔记及习题解答(绪论)
绪论
术语:
样本:关于一个事件或对象的描述的一条记录
特征(属性):反映事件或对象在某方面的表现或性质的事项
属性值:属性上的取值
特征向量:将各个属性作为坐标轴,张成一个三维空间,每个西瓜都在里面找到一个点,每个点对应的一个向量称为特征向量。
训练数据:训练过程中使用的数据
训练集:训练样本组成的集合
学习任务{分类:想预测的是离散值;回归:想预测的是连续值}
测试:进行预测的过程
测试样本:被预测的样本
聚类:将训练集中的训练样本分成若干组。
簇:每组称为一个“簇”,这些自动形成的“簇”可能对应一些潜在的概念划分。
根据训练数据是否具有标记信息,将学习任务分为两大类{“监督学习:分类和回归”;“无监督学习:聚类”}
假设空间:
归纳:从特殊到一般的“泛化”过程
演绎:从一般到特殊的“特化”过程
归纳学习{狭义:从训练数据中学得概念(概念学习)
广义:从样例中学习
假设空间:所有属性的可能性(可能取值)组合形成的假设
版本空间:一个与训练集一致的“假设集合”
归纳偏好:
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀原则:保持事物的简单化是对付复杂与繁琐的最有效方式
习题:
1.1
表1.1中1,4数据:
色泽:青绿 根蒂:蜷缩 敲声:浊响 好瓜:是
色泽:乌黑 根蒂:稍蜷 敲声:沉闷 好瓜:否
---------------------------------------------------------------------------------------------------------------------------------
版本空间:
(色泽=青绿)∧(根蒂=蜷缩)∧(敲声=浊响)
(色泽=青绿)∧(根蒂=∗)∧(敲声= ∗)
(色泽=∗)∧(根蒂=蜷缩)∧(敲声= ∗)
(色泽=∗)∧(根蒂= ∗)∧(敲声=浊响)
(色泽=青绿)∧(根蒂=蜷缩)∧(敲声= ∗)
(色泽=青绿)∧(根蒂=∗)∧(敲声=浊响)
(色泽=∗)∧(根蒂=蜷缩)∧(敲声=浊响)
1.2(不考虑冗余)
表1.1种 3种属性,分别有2,3,3种取值,所以假设空间中有3∗4∗4+1=49种假设。在不考虑沉余的情况下,最多包含k个合取式来表达假设空间,k的最大值是49,每次从中选出k个来组成析合式,一共有种可能。
1.3
通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。
归纳偏好:在训练过程中选择最多样本的假设。
1.4
考虑二分类:
=
=
=
可以看出与学习算法无关
1.5
现代搜索引擎
机器学习在搜素中的一些环节所起的作用
在需求分析中作用:特征表示,Term重要性计算,实体属性识别,Query分类
在网页分析中作用:页面赋权,网页过滤和筛选
在搜素结果评估中应用