机器学习Machine Learning之线性回归(一)
线性回归——Linear regression
利用数理统计中的回归分析来确定两种及以上相互依赖的变量之间的关系。
例如:出租房屋价格预测
几个概念及表示:
m:训练样本数量
n:特征数量
:第i行的所有特征值
:第i行的第j个特征取值
大体关系及步骤图:
Hypothesis即是我们通过学习算法学得的模型,
(1)
指模型参数,它要经过训练才能确定。
至于该假设函数为什么是这样,以后再做梳理,现在我们拿单元来讲解线性回归。
首先,我们对数据的分布没有具体的了解,只有大概的分布预计(图1.1中房屋价格会随着面积的增加而上涨)。如果只考虑房屋面积这一个因素,则可以假设学习模型为:
(2)
另外,可以知道使
(3)
最小的能使模型更加精确。
令
(4)
则就是所谓的代价函数,而之所以用平方差而非其他差来表示,请自行百度。将(2)式代入(4)可得关于
的二元函数,且
当=0时,J是关于
的二次线性函数,易知其为凹函数存在一点
使J最小;当
0时,J是关于
的二元函数,使用等高线图来表示J与
的关系如下:
关于等高线图的理解和使用自行百度。
问:面对二元函数(甚至更多元)该如何寻找使J最小的?
答:梯度下降法或标准方程法(且听下回分解)