笔记

线性回归和逻辑回归的损失函数

平方损失函数（最小二乘法, Ordinary Least Squares ）

最小二乘法是线性回归的一种方法，OLS将问题转化成了一个凸优化问题。在线性回归中，它根据中心极限定理假设样本和噪声都服从高斯分布，最后通过极大似然估计（MLE）可以推导出最小二乘式子。最小二乘的基本原则是：最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。换言之，OLS是基于欧几里得距离的。

平方损失（Square loss）的标准形式如下：
$L(Y, f(X)) =(Y - f(X))^2$

当样本个数为n时，此时的损失函数变为：
$L(Y, f(X)) = \sum _{i=1}^{n}(Y - f(X))^2$

Y-f(X)表示的是残差，整个式子表示的是残差的平方和，而我们的目的就是最小化这个目标函数值（注：该式子未加入正则项），也就是最小化残差的平方和（residual sum of squares，RSS）。

而在实际应用中，通常会使用均方差（Mean squared error， MSE）作为一项衡量指标，公式如下：
$MSE=\frac{1}{n} \sum _{i=1}^{n}(\hat{Y_{i}}−Y_{i})^2$

补充：通常说的线性有两种情况，一种是因变量y是自变量x的线性函数，一种是因变量y是参数α的线性函数。在机器学习中，通常指的都是后一种情况。

凸优化

凸优化问题是一种特殊的优化问题。
凸优化问题的形式是: 吴恩达深度学习 2.3 损失函数

其中f(x)是凸函数，可行域S是凸集。

此外还有个等价形式：吴恩达深度学习 2.3 损失函数

其中f(x)和所有的限制函数gi(x)都必须是凸函数。

凸优化问题有个很好的性质，它的局部最优解一定是全局最优解。

高斯分布

正态分布又名高斯分布，是一个非常常见的连续概率分布。
吴恩达深度学习 2.3 损失函数
中心极限定理是概率论中的一组定理。中心极限定理说明，在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。

最大似然估计

最大似然估计，就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。这时是求样本所有观测的联合概率最大化，是个连乘积，只要取对数，就变成了线性加总。此时通过对参数求导数，并令一阶导数为零，就可以通过解方程（组），得到最大似然估计值。

最大似然估计推到最小二乘公式：
吴恩达深度学习 2.3 损失函数
由此可见可以通过最大似然估计 $L(w)$ 推出最小二乘式子 $f(w)$

欧几里得距离

在数学中，欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”（即直线）距离。
在欧几里得空间中，点x =(x1,…,xn)和 y =(y1,…,yn)之间的欧氏距离为

$d(x,y):={\sqrt {(x_{1}-y_{1})^{2}+(x_{2}-y_{2})^{2}+\cdots +(x_{n}-y_{n})^{2}}}$

向量 $\vec {x}$ 的自然长度，即该点到原点的距离为

$\|{\vec {x}}\|_{2}={\sqrt {|x_{1}|^{2}+\cdots +|x_{n}|^{2}}}$
它是一个纯数值。在欧几里得度量下，两点之间线段最短。

选择欧几里得距离的原因：

简单，计算方便
欧氏距离是一种很好的相似性度量标准
在不同的表示域变换后特征性质不变

log对数损失函数（逻辑回归）

平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到，而逻辑回归得到的并不是平方损失。同时，在学习这些参数的时候，优化问题会变成非凸的，最后会得到很多局部最优解，用梯度下降法可能找不到全局最优值。
在逻辑回归的推导中，它假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数，接着取对数求极值等等。而逻辑回归并没有求似然函数的极值，而是把极大化当做是一种思想，进而推导出它的经验风险函数为：最小化负的似然函数（即max F(y, f(x)) —> min -F(y, f(x)))。从损失函数的视角来看，它就成了log损失函数了。

log损失函数的标准形式：
$L(Y,P(Y|X))=−logP(Y|X)$

在MLE中，直接求导比较困难，所以通常都是先取对数再求导找极值点，方便计算极大似然估计。损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下，使概率P(Y|X)达到最大值（换言之，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说什么样的参数才能使我们观测到目前这组数据的概率最大）。因为log函数是单调递增的，所以logP(Y|X)也会达到最大值，因此在前面加上负号之后，最大化P(Y|X)就等价于最小化L了。

逻辑回归的P(Y=y|x)表达式如下（为了将类别标签y统一为1和0，下面将表达式分开表示）：
吴恩达深度学习 2.3 损失函数

将它带入到上式，通过推导可以得到logistic的损失函数表达式，如下：
吴恩达深度学习 2.3 损失函数
即能够达到效果：如果y=1尽可能让 $\hat{y}$ 足够大；如果y=0尽可能让 $\hat{y}$ 足够小
逻辑回归最后得到的目标式子如下：

简单来看：

总结

代价函数越小，预测的结果和真实值越接近，所以训练模型的过程就是优化代价函数的过程。
通过计算损失函数关于w参数的梯度来逐步调整w参数，使损失函数越来越小，达到一个极小值为止，完成模型的训练，参数达到收敛。
吴恩达深度学习 2.3 损失函数

参考资料

机器学习-损失函数
作者：刘帝伟
链接：http://www.csuldw.com/2016/03/26/2016-03-26-loss-function/
来源：个人技术博客

loss function与cost function
作者：Excaliburer
链接：https://www.cnblogs.com/wangkundentisy/p/5935103.html
来源：博客园

机器学习中的目标函数、损失函数、代价函数有什么区别？
作者：zzanswer
链接：https://www.zhihu.com/question/52398145
来源：知乎

大白话解释模型产生过拟合的原因！
作者：忆臻
链接：https://zhuanlan.zhihu.com/p/26122044
来源：知乎

机器学习中常常提到的正则化到底是什么意思？
作者：陶轻松
链接：https://www.zhihu.com/question/20924039
来源：知乎

机器学习之正则化
作者：Acjx
链接：https://www.cnblogs.com/jianxinzhou/p/4083921.html
来源：博客园

什么样的优化问题算是凸优化？
作者：可爱多
链接：http://sofasofa.io/forum_main_post.php?postid=1000369
来源：SofaSofa

最大似然估计和最小二乘法怎么理解？
作者：司马懿、贰君、bsdelf
链接：https://www.zhihu.com/question/20447622
来源：知乎

机器学习算法应用－－－损失函数
作者：洞若观火
链接：https://zhuanlan.zhihu.com/p/28761075
来源：知乎

吴恩达深度学习 2.3 损失函数

笔记

相关函数定义介绍

代价函数和损失函数

损失函数

风险函数

过拟合

正则化

引例

正则化

正则化参数

目标函数

线性回归和逻辑回归的损失函数

平方损失函数（最小二乘法, Ordinary Least Squares ）

凸优化

高斯分布

最大似然估计

欧几里得距离

log对数损失函数（逻辑回归）

总结

参考资料

吴恩达深度学习 2.3 损失函数

笔记

相关函数定义介绍

代价函数和损失函数

损失函数

风险函数

过拟合

正则化

引例

正则化

正则化参数

目标函数

线性回归和逻辑回归的损失函数

平方损失函数（最小二乘法, Ordinary Least Squares ）

凸优化

高斯分布

最大似然估计

欧几里得距离

log对数损失函数（逻辑回归）

总结

参考资料

相关推荐