斯坦福大学机器学习笔记--第二周(1.多元线性回归及多元线性回归的梯度下降)
一.Multivariate Linear regression(多元线性回归)
二.Gradient Descent for Multiple Variables(多元线性回归的梯度下降)
现假设有多元线性回归,并约定x0=1,该模型的参数是从θ0到θn,如图2-1所示,
图2-1
这里不要认为这是n+1个单独的参数,我们要把这n+1个θ参数想象成一个n+1维的向量θ。
我们一开始的代价函数如图2-2黑色字体所示,
图2-2
但同样地我们不要把函数J想成是一个关于n+1个自变量的函数,而是看成带有一个n+1维向量的函数。
-----------------------------------------------------------------------------
关于图2-2的这个公式要深入理解下,见图2-3的练习
图2-3
一开始选了2和4,提交后得知应该选择1和2。分析如下:
选项1.其实这里的x(i)拆开后是,然后和θ的转置相乘,结果与
是一样的。
选项2.将括号里的拆开后就是
,可见选项2也是对的。
选项3.从1开始错误,我们规定了要从0开始。
选项4.,因为我们的y不像x有x0,x1,x2等等,y是没有下标只有上标的,所以选项4错误。
-----------------------------------------------------------------------------
讲完代价函数讲梯度下降,如图2-4所示,
图2-4
同理这里把函数J想成是带有一个n+1维向量的函数。当我们实现梯度下降法后,我们可以仔细观察一下它的偏导数项,图2-5是我们当特征个数n=1时梯度下降的情况。我们有两条针对参数θ0和θ1不同的更新规则,
图2-5
图2-5的两个式子不同点在于对参数θ1我们有另一个更新规则,即在最后多了一项
X(i)。(http://blog.****.net/m399498400/article/details/52528722图1-2中讲解了这一项的推导过程)。
以上是特征数量只有1个的情况下的梯度下降法的实现。当特征数量大于等于1个的时候,我们的梯度下降更新规则,变成了如图2-6的形式。
图2-6
其实图2-5和图2-6这两种新旧算法实际上是一回事儿。考虑这样一个情况,假设我们有3个特征数量,我们就会有对θ1、θ2、θ3的三条更新规则。如图2-7所示,
图2-7
仔细观察θ0的更新规则,就会发现这跟之前图2-5中n=1的情况是相同的。它们之所以是等价的是因为在我们的标记约定里有=1。
如果再仔细观察θ1的更新规则,会发现这里的这一项是和图2-5对参数θ1的更新项是等价的。在图2-7中我们只是用了新的符号来表示我们的第一个特征。其实当n=1的时候,
和
是一样的。因为图2-7的新算法应用更普遍,更广泛,所以以后不管是单特征变量还是多特征变量我们都用图2-7的算法来做梯度下降。