2. Parameterized mapping from images to label scores

4.1 多类别SVM损失函数 Multiclass SVM Loss

4.1.1 正则化

4.1.2 Practical Considerations

4.2 Softmax Classifier

4.3 SVM vs. Softmax

5. Summary

博客：https://blog.csdn.net/KangRoger/article/details/52425480

1. 引言

上节课讲了什么是图像分类，介绍了一种简单的监督算法KNN。KNN的在图像分类上的效果并不好，后续我们会介绍神经网络和卷积神经网络。神经网络的方法涉及到两个重要的组成：score function（评分函数）和loss function（损失函数）。

评分函数Score function：将原始数据映射成类别得分。

损失函数Loss function：评估预测的类别得分与真实标签之间的差异。

通过这两个函数，可以将分类问题转换为优化问题，即：求使损失函数取得最小值的score function的参数。

2. Parameterized mapping from images to label scores

定义：图像训练集 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 包含张图片，表示代表第i张图片，且，代表图像的维度。，代表图片的类别。

以CITAR-10数据集为例，共包含 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 张图片，每张图片包含像素，共有个类别。

定义评分函数为： cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

3. 线性分类器

线性分类器的映射函数/表达式为：

公式（1）

其中 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 代表图像数据：由原始图像展开得到的一个的向量。矩阵代表权重，表示偏置bias。

以CITAR-10为例： cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 的是维度为的向量；是维度为的矩阵；为维度的向量。

注意：

（1） cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 得到的列向量，每一行代表在对应类别上的score。

（2）机器学习的目的是为了找到一组参数 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax ，使得上面的函数对数据的评分尽可能与真实的标签值接近。

（3）训练结束后，可以丢弃训练数据，只需要保存参数值就可以进行预测。

（4）预测的速度很快，就是进行矩阵的相乘和相加。

线性分类器的解释：

线性分类器就是计算图像所有像素的加权和。

权重 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 的每一行可以看做对应类的模板，每一类的打分就是图像和对应模板的乘积。

此外，还可以将线性分类器看成Nearest Neighbor（最近邻学习），即：为输入图像在给定的不同类别的模板中找到最相似的一个模板，作为最后的得分。

偏置技巧：

我们可以将公式（1）中的偏置项移到前面的矩阵乘法中，即：

公式（2）

看图便可了解变换方法：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

4. 损失函数cost function

前面我们通过评分函数score function对来计算输入图像属于每一类的得分。而损失函数则是用来评估score function打分结果的好坏。打分越贴近真实标签值，则损失函数越小，反之越大。

4.1 多类别SVM损失函数 Multiclass SVM Loss

首先给出多类别SVM损失函数的定义，SVM Loss希望正确类别的得分比其他类别的得分至少高出。用 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 代表score function给出的打分，第个图像在第类上的得分是，那么第个图像的SVM损失可以用如下公式定义：

公式（3）

举一个例子：

假设共存在3个类别，score function对某样本的打分为 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax ，该样本的真实类别为，，则该样本的损失函数为：。虽然类别2的得分低于真实类别的得分，但是由于SVM Loss希望实现的是真实类别的得分比其他类别至少高出，由于不满足该条件所以仍会带来损失。

本节的分类器是线性分类器时，将score function带入公式（3）可以得到线性分类器的损失函数:

公式（4）

其中， cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 是的第行。

Hinge Loss：上面的损失函数叫Hinge Loss，形式为 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 。有时也会使用square hinge loss来替代，形如：。

4.1.1 正则化

上面的损失函数存在一个“bug”。设想一下，假设评分函数都能够正确预测所有分类，即： cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax ，都有，那么这些性能问题是，这样的权重并不是唯一的。因为如果一组权重满足这样的要求，那么对于也都满足这个要求。只不过当评价函数的值不为的时候，那么其得分会被放大 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 倍。

为了解决这个问题，我们可以对 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 添加一些限制来移除上述不确定性，即：对原始损失函数进行扩展，为其添加一个正则项。常用惩罚是范数：

公式（5）

注意1：惩罚项与数据无关。

这样，损失函数就可以被改写成由data loss和regularization loss两部分组成的：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

展开后可得：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

公式（6）

其中， cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 为一个超参数，可以通过交叉验证进行设置。

正则项可以惩罚大的权重值，这样可以提高模型的泛化能力。例如：输入数据 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax ，有两组权重，内积相等。但是L2惩罚不同，对于是1.0，而对于是0.25，故而优于。从直观上看，的取值更小且更加分散，输入数据的所有维度都会对评价函数产生影响，而不是仅仅其中几个维度就决定了评价函数。因此，具有更好的泛化性能，能够减小过拟合。

注意2：惩罚项只针对 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax ，而不针对偏差，因为偏差对输入数据各个维度大小没有影响。

margin和正则化系数的关系

4.1.2 Practical Considerations

的设定

也是一个超参数，常用取值为1.0。超参数和具有相同的作用：平衡目标函数中的data loss和regularization loss。因为二者均可以直接或间接影响评价函数的得分，进而影响不同类别之间的得分差异。

Multiclass SVM与二分类SVM之间的关系

二分类SVM是Multiclass SVM的一种特例，其损失函数为：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

公式（7）

其中， cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 是超参数，，。

Optimization In Prime

想进一步了解SVM，了解核方法、对偶、SMO算法等可以参见博客：机器学习知识点总结 - SVM

其它Multiclass SVM

如：OVA（One-vs-All）SVM：为每一个类别训练一个二分类SVM。

4.2 Softmax Classifier

Softmax分类器是二元Logistics回归泛化到多元分类的情况。与SVM不同的是，Softmax分类器不输出得分，而是输出对应类别的概率。Softmax分类器中，映射函数仍为前面介绍的线性分类器，但是利用Softmax函数将其输出进行运算得到归一化对数概率。

Softmax函数的定义：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

公式（8）

其中， cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 代表第在第个类别上softmax函数给出的归一化对数概率值，代表线性函数在第个类别上的输出。

此外，Softmax分类器使用的损失函数为cross-entropy loss，其定义如下：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 或可以写成

公式（9）

信息论角度：一个真实分布和其估计分布的交叉熵定义如下：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

公式（10）

Softmax分类器是最小化估计的分布和真实分布（ cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax ，只有第个为1）之间的交叉熵。交叉熵可以看做熵和相对熵的和相对熵的和，真实分布的熵是零，所以最小化交叉熵等价于最小化相对熵。

概率角度：

公式（11）

已知输入数据 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 和权重参数，上式可以看做对应类别的归一化概率。评价函数的输出向量没有归一化，直接作为对数概率的输入，之后用对数概率除以所有概率的和来进行归一化，这样概率的和为1。从概率论角度看，我们再最小化正确分类的负概率（即最大化正确分类的概率），这是最大似然估计（Maximum Likelihood Estimation）。这样损失函数中的正则化部分 cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 可以看过权重矩阵的高斯先验，这样最大似然估计变成了最大后验概率估计（Maximum a posteriori Estimation）。

实践问题：

数值稳定：当写代码实现Softmax函数时，会涉及到和的计算，因为指数的原因，这些数值可能会非常大。除以很大的数值可能会引起数值不稳定，这时可以使用归一化的技巧。在分子和分母同时乘以一个常数，分数的数值不变：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

公式（12）

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax 通常设为，这样分数向量中最大的值为0。

4.3 SVM vs. Softmax

下图可以帮助对比两者的区别：

cs231n 学习笔记（2）- 线性分类器、Multiclass SVM与Softmax

相对于SVM给出的是类别的得分，Softmax分类器计算每类的概率，直观上比较容易理解。

实践中，SVM和Softmax性能差别不大，不同的人对哪种效果更好持不同的观点。和Softmax相比，SVM更加局部化（local objective），它只关心小于间隔Δ的部分，例如Δ=1，那么分值[10, -100, -100]和[10, 9, 9]对于SVM来说，其loss函数值相同；但是对于softmax就不同了。Softmax的loss函数只有在完全正确情况下才会为0。

5. Summary

定义了score function，并给出了线性函数的score function的定义。
和kNN使用不一样，参数化方法训练时间比较久，预测只是矩阵相乘。
通过一个trick，可以把偏置加入到矩阵相乘中。
定义了loss function，介绍了常用的SVM和Softmax loss。对比了两者的区别。