绪论

机器学习致力于研究如何通过计算手段，利用经验来改善系统自身的性能。

我们收集了一组数据记录，成为“数据集”，每条记录是关于一个事件或者对象，成为“样本”，反映事件或对象在某方面的额表现或性质的事项，称为“属性”或“特征”。

一般地，令 D = {X1，X2,....,Xm } 表示包含 m 个示例的数据集，每个示例由 d 个属性描述(例如上面的西瓜数据使用了3个属性)，则每个示例Xi = (Xi1; Xi2; . . . ; Xid) 是 d 维样本空间 X 中的一个向量，Xi ε X ，其中 Xij 是凯在第 j 个属性上的取值(例如上述第 3 个西瓜在第 2 个属性上的值是"硬挺" ), d 称为样本院的"维数" 。

从数据中学模型的过程称为“学习”或者“训练”，训练过程使用的数据称为“训练数据”，每个样本称为“训练样本”，样本的集合称为“训练集”。

若我们预测的是离散值，称为“分类”，若预测的是连续值，则称为“回归”。一般地，预测任务是通过对训练集进行学习的，建立一个从输入空间X到输出空间Y的映射f：X->Y。对二分类任务，通常令 Y = {-1 ，+1} 或 {0 ，1}; 对多分类任务， IYI >2; 对回归任务，Y= lR，lR为实数集.。

根据训练数据是否拥有标记信息，学习任务可分为“监督学习”和“无监督学习”，分类和回归是前者的代表，聚类是后者的代表。

从以下训练集：

周志华机器学习 Day1

从上图中，我们利用机器学习，最终的结果必然是能够自主识别西瓜的好坏，通过色泽=?∧根蒂=？∧敲声=？判断好瓜与坏瓜；通过不断的学习，使得“？”的内容能够确定下来，得到较为准确的判断。这样的判断总共有4 x x 3 + 1 = 37

上图即为假设空间，机器学习任务即是从中学习并获得准确的判断。其中，拥有与训练集相同的假设，称为“版本空间”。

同时需要注意的是，不同的模型对同一种样本可能会产生不一样的结果；因此，算法在学习的过程中对某种类型假设的偏好，称为“归纳偏好”或简称为“偏好”。

周志华机器学习 Day1

横坐标x与纵坐标y得到的点（x，y）是一个训练集，要学得一个与训练集一样的模型，相当于找到一条穿过所有训练样本点的曲线，不用的偏好会导致曲线的不同。

周志华 机器学习 Day1

绪论

相关推荐

周志华机器学习 Day1