常见损失函数总结(二)
回归损失函数
(1)Mean Square Error(L2损失)
图像为:
(2)Mean Absolute Error (L1损失)
图像为:
我们可以从公式很容易的得到,MAE在处理异常值方面相比MSE有更好的表现。但MAE的梯度始终保持不变,在使用诸如梯度下降等优化算法时,即使error很小而梯度依然会很大,这样不能在最优点附近有效的收敛,所以要通过缩小学习率来调节。
(3) Huber Loss
huber loss 集合了MSE和MAE的优点,当 |y−f(x)| ≤ δ 时,变为 MSE;当 |y−f(x)| > δ 时,则变成类似于 MAE。在huber loss函数上处处可导,且对于离群点没有那么敏感。huber loss的缺点是超参数需要人为调节。
可以看到,当δ比较大时,损失函数更加陡峭,这样模型可以更快的更新参数;当δ比较小,模型可以更为精确地获得全局最优;
参考文献: