机器学习模型是个什么东西?终于有那么点明白了。

​本文是吴恩达“机器学习”第一周第6次视频的学习笔记。

经过5次视频讲解的铺垫,终于进入正轨。这次视频讲解机器学习问题的建模表示,主要包括2个方面的内容:

  1. 机器学习的模型描述

  2. 以一元线性回归模型表示房价预测问题为例。

     

1 机器学习的模型描述

还是以房价预测为例,如果是横坐标下面箭头指向的那个地方的房子应该卖多少钱合适?

那,下面坐标系中叉叉表示的那些点都是已知的房屋面积(单位:平方英尺)和房屋价格(单位1000美元)之间的对应关系,那如果我有1250平方英尺的房子该卖多少钱呢?

机器学习模型是个什么东西?终于有那么点明白了。

前面看监督学习、无监督学习的时候我们大概知道了,该怎么做。如下图,这个房屋价格预测是一个监督学习问题,同时又是一个回归问题。

机器学习模型是个什么东西?终于有那么点明白了。

更进一步的,我们用列表来表示我们的训练集(Training set,即已知的历史成交数据)

机器学习模型是个什么东西?终于有那么点明白了。

在此基础上呢,我们约定一些符号表示:

  • m: 训练集中的样本个数,即上图表格中历史成交数据的个数(面积——价格对);

  • x's:输入变量/特征,

  • y's:输出变量/目标变量,

  • (x, y):一个训练样本,

  • (x^(i), y^(i)): 表示m个样本的训练集中的第i个样本

那这里呢,我们的x表示的是房屋的面积,y是房屋的售价。我们知道x和y之间有一种关系,假设(hypothesis)这种关系是h。这个h就像我们高等数学第一章讲到的函数f类似,f将定义域上的某个(些)x映射到值域上的某个y上。h就有点类似于这个f。

那机器学习是干嘛的呢?就是用训练集和一定的学习算法将这个h给弄出来,然后就在输入变量(特征)和输出变量(目标值)之间建立了一种对应关系,就可以用这个关系来预测新的输入变量x的输出y。如下面框图所示:

机器学习模型是个什么东西?终于有那么点明白了。

以一元线性回归模型表示房价预测问题为例

 

问题又来了,上面图中的h到底是个什么东东呢?该怎样通过训练集和学习算法把它给鼓捣出来呢?

一种比较理想的方法是用一种万能的公式,公式的形式固定、参数未知,只要把训练集的数据往公式里带入,用一种办法把这个公式的参数给求出来就行了。当然,这个万能公式应该是不存在的。

但是,如果像上面的房价预测的问题一样,我们在数据探索阶段认定了房屋面积和售价之间是一种线性关系的话,我们就可以用下图中这种直线公式来表述这种关系。

机器学习模型是个什么东西?终于有那么点明白了。

我们只要通过训练集把上面直线公式的两个参数给求出来就行了,从小学的时候学解方程就知道,对于两个未知数的情况我们有两组(x,y)就能把它们求出来。

但实际情况是,我们有m组,而且这m组呢,它们并不是严格的在一条直线上,向下面的图一样。

机器学习模型是个什么东西?终于有那么点明白了。

我们要想方设法的找到一条直线(即确定直线方程的两个参数),让这条直线能尽量照顾到m个训练样本。

那怎样找到这条最中庸的直线呢?且听下回。

 


 

机器学习模型是个什么东西?终于有那么点明白了。