Ng机器学习笔记线性回归

线性回归(Linear Regression with)

线性回归(Linear Regression with)

从单变量到多变量

模型表示

m m m 代表训练集中实例的数量

x x x 代表特征/输入变量

y y y 代表目标变量/输出变量

( x , y ) \left( x,y \right) (x,y) 代表训练集中的实例

( x ( i ) , y ( i ) ) ({{x}^{(i)}},{{y}^{(i)}}) (x(i),y(i)) 代表第 i i i 个观察实例

h h h 代表学习算法的解决方案或函数也称为假设（hypothesis）
Ng机器学习笔记线性回归
将训练集“喂”给我们的学习算法，进而学习得到一个假设h，然后将我们要预测的房屋的尺寸作为输入变量输入给h. 一种可能的表达方式为： h θ ( x ) = θ 0 + θ 1 x h_\theta \left( x \right)=\theta_{0} + \theta_{1}x hθ(x)=θ0+θ1x，因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

代价函数

目标是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数 J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J \left( \theta_0, \theta_1 \right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2} J(θ0,θ1)=2m1i=1∑m(hθ(x(i))−y(i))2最小。

平方误差代价函数是解决回归问题最常用的手段。

梯度下降

使用梯度下降算法来求出代价函数 J ( θ 0 , θ 1 ) J(\theta_{0}, \theta_{1}) J(θ0,θ1) 的最小值。

批量梯度下降（batch gradient descent）算法的公式为：
Ng机器学习笔记线性回归
其中 α \alpha α是学习率（learning rate）
梯度下降中，我们要更新 θ 0 {\theta_{0}} θ0和 θ 1 {\theta_{1}} θ1 ，当 j = 0 j=0 j=0 和 j = 1 j=1 j=1时，会产生更新，所以你将更新 J ( θ 0 ) J\left( {\theta_{0}} \right) J(θ0)和 J ( θ 1 ) J\left( {\theta_{1}} \right) J(θ1)。实现梯度下降算法的微妙之处是，在这个表达式中，如果你要更新这个等式，你需要同时更新 θ 0 {\theta_{0}} θ0和 θ 1 {\theta_{1}} θ1

实现方法是：你应该计算公式右边的部分，通过那一部分计算出 θ 0 {\theta_{0}} θ0和 θ 1 {\theta_{1}} θ1的值，然后同时更新 θ 0 {\theta_{0}} θ0和 θ 1 {\theta_{1}} θ1。

同步更新
Ng机器学习笔记线性回归
更新 θ 1 \theta_1 θ1时，所用的 θ 0 \theta_0 θ0还是原值。

梯度下降的线性回归

将梯度下降和代价函数结合

Ng机器学习笔记线性回归
对我们之前的线性回归问题运用梯度下降法，关键在于求出代价函数的导数，即：

∂ ∂ θ j J ( θ 0 , θ 1 ) = ∂ ∂ θ j 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 \frac{\partial }{\partial {{\theta }{j}}}J({{\theta }{0}},{{\theta }{1}})=\frac{\partial }{\partial {{\theta }{j}}}\frac{1}{2m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}^{2}} ∂θj∂J(θ0,θ1)=∂θj∂2m1i=1∑m(hθ(x(i))−y(i))2

j = 0 j=0 j=0 时： ∂ ∂ θ 0 J ( θ 0 , θ 1 ) = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) \frac{\partial }{\partial {{\theta }{0}}}J({{\theta }{0}},{{\theta }{1}})=\frac{1}{m}{{\sum\limits{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}} ∂θ0∂J(θ0,θ1)=m1∑i=1m(hθ(x(i))−y(i))

j = 1 j=1 j=1 时： ∂ ∂ θ 1 J ( θ 0 , θ 1 ) = 1 m ∑ i = 1 m ( ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x ( i ) ) \frac{\partial }{\partial {{\theta }{1}}}J({{\theta }{0}},{{\theta }{1}})=\frac{1}{m}\sum\limits{i=1}^{m}{\left( \left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)} ∂θ1∂J(θ0,θ1)=m1∑i=1m((hθ(x(i))−y(i))⋅x(i))

则算法改写成：

Repeat {

θ 0 : = θ 0 − a 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) {\theta_{0}}:={\theta_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{ \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)} θ0:=θ0−am1i=1∑m(hθ(x(i))−y(i))

θ 1 : = θ 1 − a 1 m ∑ i = 1 m ( ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x ( i ) ) {\theta_{1}}:={\theta_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)} θ1:=θ1−am1i=1∑m((hθ(x(i))−y(i))⋅x(i))

}

”批量梯度下降”，指的是在梯度下降的每一步中都用到了所有的训练样本，批量梯度下降法这个名字说明了我们需要考虑所有这一"批"训练样本.

多维特征

n n n 代表特征的数量

x ( i ) {x^{\left( i \right)}} x(i)代表第 i i i 个训练实例，是特征矩阵中的第 i i i行，是一个向量（vector）。

比方说，上图的

x ( 2 ) = [ 1416 3 2 40 ] {x}^{(2)}\text{=}\begin{bmatrix} 1416\\ 3\\ 2\\ 40 \end{bmatrix} x(2)=⎣⎢⎢⎡14163240⎦⎥⎥⎤，

x j ( i ) {x}_{j}^{\left( i \right)} xj(i)代表特征矩阵中第 i i i 行的第 j j j 个特征，也就是第 i i i 个训练实例的第 j j j 个特征。

如上图的 x 2 ( 2 ) = 3 , x 3 ( 2 ) = 2 x_{2}^{\left( 2 \right)}=3,x_{3}^{\left( 2 \right)}=2 x2(2)=3,x3(2)=2，

支持多变量的假设 h h h 表示为： h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}} hθ(x)=θ0+θ1x1+θ2x2+...+θnxn，

这个公式中有 n + 1 n+1 n+1个参数和 n n n个变量，为了使得公式能够简化一些，引入 x 0 = 1 x_{0}=1 x0=1，则公式转化为： h θ ( x ) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n h_{\theta} \left( x \right)={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}} hθ(x)=θ0x0+θ1x1+θ2x2+...+θnxn

此时模型中的参数是一个 n + 1 n+1 n+1维的向量，任何一个训练实例也都是 n + 1 n+1 n+1维的向量，特征矩阵 X X X的维度是 m ∗ ( n + 1 ) m*(n+1) m∗(n+1)。因此公式可以简化为： h θ ( x ) = θ T X h_{\theta} \left( x \right)={\theta^{T}}X hθ(x)=θTX，其中上标 T T T代表矩阵转置。

Ng机器学习笔记线性回归
求导后：

梯度下降法实践1-特征缩放

将所有特征的尺度都缩放到-1到1之间

PS: 正规方程

对于某些线性回归问题，正规方程方法是更好的解决方案。如：
Ng机器学习笔记线性回归
正规方程是通过求解下面的方程来找出使得代价函数最小的参数的： ∂ ∂ θ j J ( θ j ) = 0 \frac{\partial}{\partial{\theta_{j}}}J\left( {\theta_{j}} \right)=0 ∂θj∂J(θj)=0 。
假设我们的训练集特征矩阵为 X X X（包含了 x 0 = 1 {{x}_{0}}=1 x0=1）并且我们的训练集结果为向量 y y y，则利用正规方程解出向量：
θ = ( X T X ) − 1 X T y \theta ={{\left( {X^T}X \right)}^{-1}}{X^{T}}y θ=(XTX)−1XTy 。

梯度下降法与正规方程的比较

梯度下降	正规方程
需要选择学习率 α \alpha α	不需要
需要多次迭代	一次运算得出
当特征数量 n n n大时也能较好适用	需要计算 ( X T X ) − 1 {{\left( {{X}^{T}}X \right)}^{-1}} (XTX)−1 如果特征数量n较大则运算代价大，因为矩阵逆的计算时间复杂度为 O ( n 3 ) O\left( {{n}^{3}} \right) O(n3)，通常来说当 n n n小于10000 时还是可以接受的
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型

Ng机器学习笔记 线性回归

Ng机器学习笔记 线性回归

线性回归(Linear Regression with)

模型表示

代价函数

梯度下降

梯度下降的线性回归

多维特征

梯度下降法实践1-特征缩放

PS: 正规方程

梯度下降法与正规方程的比较

相关推荐

Ng机器学习笔记线性回归

Ng机器学习笔记线性回归