西瓜书-机器学习笔记(一)
1 基本术语
1.1 数据集
数据集D={x1,x2,…,xm}
- xm={xi1; xi2;…;xid},是d维样本空间X中的一个样本/向量
- xij是样本xi在第j个位置上的取值
- d是样本xi的维数
- d维样本空间X又称为样本空间/输入空间
一个模型:
1.2 预测模型-训练集
训练集=数据集+结果:{(x1,y1), (x2,y2), (xm,ym)}
例如:((色泽=青绿;根蒂=蜷缩;敲声=浊响), 好瓜)
- (x1,y1)是第i个样例
- yi是标记,Y是所有yi的集合,又称为标记空间/输出空间
1.3 分类与回归
预测任务是对训练集:{(x1,y1), (x2,y2), (xm,ym)}进行学习,建立从输入空间到输出空间的映射 f : X->Y
- 预测离散值:分类(二分类与多分类)
- 预测连续值:回归
1.4 聚类
自发形成簇
1.5 监督学习与无监督学习
区分标志:训练数据中是否标记信息(有标记,是监督学习;否则,是无监督)
- 分类、回归是监督学习
- 聚类是无监督学习
1.6 泛化
- 学得模型能够适用于新样本的能力,称为泛化能力
- 具有强泛化能力的模型具有能够很好地适用于所有样本空间