机器学习笔记(参考吴恩达机器学习视频笔记)04_多变量线性回归
4 多变量线性回归
4.1 多维特征
代表特征矩阵中第i行的第j个特征,也就是第i个训练实例的第j个特征。
支持多变量的假设函数h表示为:,其中,引入
。此时模型中的参数是一个n+1维的向量,特征矩阵X的维度是m*(n+1)。因此公式可以简化为:
。
4.2 多变量梯度下降
在多变量线性回归中,代价函数表示为:,其中:
。
多变量线性回归的批量梯度下降算法为:
1)特征缩放:将所有特征的尺度都尽量缩放到-1到1之间。最简单的方法是令:,其中
是平均值,
是标准差。
2)学习率:学习率过小,则达到收敛所需的迭代次数会非常高;学习率过高,可能会越过局部最小值导致无法收敛。通常可以考虑的值为:0.01,0.03,0.1,0.3,1,3,10。
3)特征与多项式回归:线性回归并不适用于所有数据,有时需要曲线来适应数据,比如二次方程模型:。通常需要先观察数据然后再决定选择怎样的模型。另外,可以令:
,将模型转化为线性回归模型。
4.3 正规方程
正规方程是通过求解下面的方程来找出使得代价函数最小的参数:。训练集特征矩阵为
(包含了
=1)并且训练集结果为向量y,则利用正规方程解出向量
。
4.4 梯度下降与正规方程比较
只要特征变量的数目并不大,标准方程是一个很好的计算参数的替代方法。具体来说,只要特征变量数量小于一万,通常使用标准方程法,而不使用梯度下降法。两种方法的比较如表:
梯度下降 |
正规方程 |
需要选择学习率 |
不需要 |
需要多次迭代 |
一次运算得出 |
当特征数量n大时也能较好适用 |
需要计算 |
适用于各种类型的模型 |
只适用于线性模型,不适合逻辑回归模型等其他模型 |