总结各类损失函数【修】

原文：https://blog.csdn.net/weixin_41923961/article/details/80382409#commentsedit

损失函数

损失函数（Loss function）是用来估量你模型的预测值 $f(x)$ 与真实值 $y$ 的不一致程度，它是一个非负实值函数，通常用 $L(y,f(x))$ 来表示。损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数的重要组成部分。模型的风险结构包括了风险项和正则项，通常如下所示：

$θ^∗=argmin∑_{i=1}^NL(y_i,f(x_i;θ))+λ Φ(θ)$

其中，前面的均值函数表示的是经验风险函数， $L$ 代表的是损失函数，后面的 $Φ$ 是正则化项（regularizer）或者叫惩罚项（penalty term），它可以是 $L_1$ ，也可以是 $L_2$ ，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的 $θ$ 值。

常用损失函数

常见的损失误差有五种：

铰链损失（Hinge Loss）：主要用于支持向量机（SVM）中；
互熵损失（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回归与Softmax 分类中；
平方损失（Square Loss）：主要是最小二乘法（OLS）中；
指数损失（Exponential Loss）：主要用于Adaboost 集成学习算法中；
其他损失（如0-1损失，绝对值损失）

1.Hinge loss

Hinge的叫法来源于其损失函数的图形，为一个折线，通用函数方式为:
$L(m_i) = max(0,1-m_i(w))$

Hinge可以解间距最大化问题，带有代表性的就是svm,最初的svm优化函数如下:
$\underset{w,\zeta}{argmin} \frac{1}{2}||w||^2+ C\sum_i \zeta_i \\ st.\quad \forall y_iw^Tx_i \geq 1- \zeta_i \\ \zeta_i \geq 0$

将约束项进行变形则为:
$\zeta_i \geq 1-y_iw^Tx_i$
则可以将损失函数进一步写为:
$J(w)=\frac{1}{2}||w||^2 + C\sum_i max(0,1-y_iw^Tx_i)$
$= \frac{1}{2}||w||^2 + C\sum_i max(0,1-m_i(w))$
$= \frac{1}{2}||w||^2 + C\sum_i L_{Linge}(m_i)$

因此svm的损失函数可以看成L2-Norm和Hinge损失误差之和.

2.Softmax Loss

有些人可能觉得逻辑回归的损失函数就是平方损失，其实并不是。平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到，而逻辑回归得到的并不是平方损失。在逻辑回归的推导中，它假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数，接着取对数求极值等等。而逻辑回归并没有求似然函数的极值，而是把极大化当做是一种思想，进而推导出它的经验风险函数为：最小化负的似然函数（即 $maxF(y,f(x))→min−F(y,f(x)))$ 。从损失函数的视角来看，它就成了Softmax 损失函数了。

$log$ 损失函数的标准形式：

$L(Y,P(Y|X))=−logP(Y|X)$

刚刚说到，取对数是为了方便计算极大似然估计，因为在MLE中，直接求导比较困难，所以通常都是先取对数再求导找极值点。损失函数 $L(Y,P(Y|X))$ 表达的是样本X在分类Y的情况下，使概率 $P(Y|X)$ 达到最大值（换言之，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说什么样的参数才能使我们观测到目前这组数据的概率最大）。因为 $log$ 函数是单调递增的，所以 $logP(Y|X)$ 也会达到最大值，因此在前面加上负号之后，最大化 $P(Y|X)$ 就等价于最小化LL 了。
逻辑回归的 $P(Y=y|x)$ 表达式如下（为了将类别标签 $y统一为1和0$ ，下面将表达式分开表示）：
总结各类损失函数【修】
将它带入到上式，通过推导可以得到 $logistic$ 的损失函数表达式，如下：

逻辑回归最后得到的目标式子如下：

上面是针对二分类而言的。这里需要解释一下：之所以有人认为逻辑回归是平方损失，是因为在使用梯度下降来求最优解的时候，它的迭代式子与平方损失求导后的式子非常相似，从而给人一种直观上的错觉。