周志华 机器学习 Day1

绪论

机器学习致力于研究如何通过计算手段,利用经验来改善系统自身的性能。

我们收集了一组数据记录,成为“数据集”,每条记录是关于一个事件或者对象,成为“样本”,反映事件或对象在某方面的额表现或性质的事项,称为“属性”或“特征”。

一般地,令 D = {X1,X2,....,Xm } 表示包含 m 个示例的数据集,每个示例由 d 个属性描述(例如上面的西瓜数据使用了3个属性),则每个示例Xi = (Xi1; Xi2; . . . ; Xid) 是 d 维样本空间 X 中的一个向量 ,Xi ε X ,其中 Xij 是凯在第 j 个属性上的取值(例如上述第 3 个西瓜在第 2 个属性上的值是"硬挺" ), d 称为样本院的"维数"

从数据中学模型的过程称为“学习”或者“训练”,训练过程使用的数据称为“训练数据”,每个样本称为“训练样本”,样本的集合称为“训练集”。

若我们预测的是离散值,称为“分类”,若预测的是连续值,则称为“回归”。一般地,预测任务是通过对训练集进行学习的,建立一个从输入空间X到输出空间Y的映射f:X->Y。对二分类任务,通常令 Y = {-1 ,+1} 或 {0 ,1}; 对多分类任务, IYI >2; 对回归任务,Y= lR,lR为实数集.。

根据训练数据是否拥有标记信息,学习任务可分为“监督学习”和“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。

从以下训练集:

周志华 机器学习 Day1

从上图中,我们利用机器学习,最终的结果必然是能够自主识别西瓜的好坏,通过色泽=?∧根蒂=?∧敲声=?判断好瓜与坏瓜;通过不断的学习,使得“?”的内容能够确定下来,得到较为准确的判断。这样的判断总共有4 x x 3 + 1 = 37

周志华 机器学习 Day1


上图即为假设空间,机器学习任务即是从中学习并获得准确的判断。其中,拥有与训练集相同的假设,称为“版本空间”。

同时需要注意的是,不同的模型对同一种样本可能会产生不一样的结果;因此,算法在学习的过程中对某种类型假设的偏好,称为“归纳偏好”或简称为“偏好”。

周志华 机器学习 Day1

横坐标x与纵坐标y得到的点(x,y)是一个训练集,要学得一个与训练集一样的模型,相当于找到一条穿过所有训练样本点的曲线,不用的偏好会导致曲线的不同。