吴恩达机器学习笔记二（lecture 2）（损失函数、梯度下降）

一、单变量的LR模型

最简单的单变量线性回归模型：

二、损失函数（cost function）

在这个例子中使用的是平方误差函数最为损失函数，这是解决线性回归问题最常用的损失函数

吴恩达机器学习笔记二（lecture 2）（损失函数、梯度下降）

1、假设函数和损失函数之间的关系

吴恩达机器学习笔记二（lecture 2）（损失函数、梯度下降）

先考虑θ₀=0的情况：当θ₁ = 1时，损失函数取最小值

吴恩达机器学习笔记二（lecture 2）（损失函数、梯度下降）

θ₀不知道时，两个参数，对应的损失函数的图像如下：是一个三维图像。与上面例子类似，都是找到损失函数值最小时候的参数值。

吴恩达机器学习笔记二（lecture 2）（损失函数、梯度下降）

三、梯度下降（Gradient descent）

梯度下降法基础知识

1、梯度：

在微积分里面，对多元函数参数求偏导数，把求的各参数的偏导数以向量的形式写出来，就是梯度。

梯度向量从几何意义上讲，就是函数变化增加最快的地方，沿着梯度向量的方向更容易找到函数的最大值，沿着向量相反的方向，梯度减小最快，更容易找到函数最小值。

2、梯度下降与梯度上升可以互相转化。求损失函数f(θ)的最小值，用梯度下降法迭代，亦可反过来求损失函数 -f(θ)的最大值，用梯度上升法。

3、梯度下降算法解析

（1）直观解释

eg.在一座大山的某一位置，要下山，走一步算一步，每走一步就计算当前位置的梯度，沿着当前梯度的负方向走一步（也就是当前最陡的位置），然后再次计算当前位置，这样一步一步往下走，一直走到觉得已经到了山脚。有可能我们只是到了一个局部山峰底部。所以梯度下降不一定能找到全局最优解，有可能是一个局部最优解。当损失函数是凸函数的时候，梯度下降法所求的解就是全局最优解。

（2）相关概念

（i）步长：梯度下降迭代过程中每一步沿负方向前进的长度。

（ii）特征：样本输入部分，样本（x₀,y₀），其样本特征为x,输出为y。

(Iii) 假设函数：在监督学习中，用假设函数拟合输入样本，记为h_θ(x)。比如对于样本（x_i,y_i）。(i=1,2,...n),可以采用拟合函数如下： h_θ(x) = θ₀+θ₁x。