损失函数 l1, l2, smooth l1
为什么选择smooth l1?
当loss处于[-1,1]之间时,梯度下降同 l2,比较缓慢,不至于在最优值左右来回震荡;
当loss处于[−∞,-1],[1,+∞],梯度下降同 l1,避免了 l2的梯度爆炸情况;同时,对于噪声也没有l2敏感,增强了抗噪性。
为什么选择smooth l1?
当loss处于[-1,1]之间时,梯度下降同 l2,比较缓慢,不至于在最优值左右来回震荡;
当loss处于[−∞,-1],[1,+∞],梯度下降同 l1,避免了 l2的梯度爆炸情况;同时,对于噪声也没有l2敏感,增强了抗噪性。