机器学习(一)——监督学习(Supervised learning)

原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf

让我们从几个有监督的学习问题的例子开始。假设我们有一个数据集,显示来自俄勒冈州波特兰的47个住宅的起居面积和价格:

机器学习(一)——监督学习(Supervised learning)

我们可以绘制这些数据:

机器学习(一)——监督学习(Supervised learning)

鉴于这样的数据,我们如何才能学会预测波特兰其他房屋的价格,这取决于他们居住面积的大小?

在这里我们先规定一下符号(notation)定义(definition),它们在将来还会用到。我们将使用 x(i)x(i) 来表示 “输入(input)” 变量(在这个例子中就是房屋的面积),这也被称作输入的特征(feature)。使用 y(i)y(i) 来表示 “输出(output)” 或者 目标(target) 变量,即是我们想要去预测的值(这个例子中是指价格)。我们用来学习的数据集——含有mm个训练样本 (x(i),y(i));i=1,,m(x(i),y(i));i=1,…,m 的列表——被称作是训练集(training set)。注意上标 “ (i)(i) “ 在符号表示中只是训练集的 索引(index) 记号,与数学中的求幂无关。另外我们使用 XX 来表示输入值的空间,使用 YY 来表示输出值的空间。在这个例子中,输入和输出空间都是实数域,即 X=Y=RX=Y=R .

接下来对监督学习问题给出一个更加正式的描述:我们的目标是,给定一个训练集,学习一个函数 h:XYh:X↦Y,使得 h(x)h(x) 对于 yy 的真实值而言是一个 ”好的(good)“ 预测结果。由于历史原因,函数 hh 被称为 假设(hypothesis)。从图片上看,整个过程是是这样的:

机器学习(一)——监督学习(Supervised learning)

当我们试图预测的目标变量是连续(continuous)的,就像我们的房屋面积-价格的例子一样,这样的学习问题被称为回归(regression)问题。当 只能取一小部分离散(discrete)值时(比如给定房屋面积,我们要来确定这个房子是一个住宅还是公寓),这样的学习问题被称为分类(classification)问题。