多类别SVM损失和交叉熵损失比较

多类别SVM损失和交叉熵损失是机器学习中两种常用的损失函数，为了加深自己对它们的理解也便于以后回顾，下面以表格的形式从它们的主要思想、对应的分类器、损失计算公式以及对权重矩阵的梯度计算公式四个方面进行对比。

比较项目	多类别SVM损失(又称hinge loss)	交叉熵损失(cross-entropy loss)
主要思想	正确的类别结果获得的得分比不正确的类别至少要高一个阈值 $Δ$	从信息论角度理解，最小化预测结果的概率分布与真实标签的概率分布的差异；从概率角度理解，最小化预测结果概率分布的负对数似然或对权重矩阵进行极大似然估计
对应的分类器	多类别SVM分类器	Softmax分类器（上面对数符号里面的是softmax函数，它会将得分f映射为0~1之间的概率）
损失计算公式（对于输入xi）	$L_{i} = Σ_{j \neq y_{i}} m a x (0, f (x_{i}, W)_{j} - f (x_{i}, W)_{y_{i}} + Δ), f (x_{i}, W)_{j}$ 是属于第j类的得分， $y_{i}$ 是真实类别	$L_{i} = - l o g \frac{e_{y_{i}}^{f}}{Σ_{j} e^{f_{j}}}$ ，真实标签的概率分布是仅在类别 $y_{i}$ 处为1，其余类别为0的向量
梯度计算公式	$\begin{aligned} \nabla_{w_{y_{i}}} L_{i} = & - (\sum_{j \neq y_{i}} 1 (w_{j}^{T} x_{i} - w_{y_{i}}^{T} x_{i} + Δ > 0)) x_{i} & j = y_{i} \\ \nabla_{w_{j}} L_{i} = & 1 (w_{j}^{T} x_{i} - w_{y_{i}}^{T} x_{i} + Δ > 0) x_{i} & j \neq y_{i} \end{aligned}$ 1表示示性函数，括号内的自变量大于0取1	$\begin{aligned} \nabla_{w_{y_{i}}} L_{i} = & - x_{i} + \frac{e^{f_{y_{i}}}}{\sum_{j} e^{f_{j}}} x_{i} & j = y_{i} \\ \nabla_{w_{j}} L_{i} = & \frac{e^{f_{j}}}{\sum_{j} e^{f_{j}}} x_{i} & j \neq y_{i} \end{aligned}$

下面贴一张图进行便于直观理解
多类别SVM损失和交叉熵损失比较