CS231斯坦福深度视觉学习课程学习笔记——第3章

不得不说,这一章虽然讲的不多,但是有很多公式和对公式的理解,我理解的也不是很透彻,再后面的学习中,我会把自己的理解加回来。

1.上次提到的Linear分类器的输入变量x是列向量,和图片的数字矩阵不同,怎么理解?

确实我上次听的时候也有这个疑惑,但是在今天找到了答案,Linear的输入变量并不是数字矩阵本身,而是加工处理过的变量,对于图片的特征,由很多的提取方法:

最原始的有颜色直方图法,计算机表示图片的方法是在每一个像素方格中填充颜色,那么我们可以统计所有颜色出现的频数(频率),按照顺序排成一列,相似的图片会有相似的颜色分布。

最新的方法有Bags of Words,词袋法,由自然语言处理中得到的灵感,我们都受过论文查重的困扰吧,知网默认连续13个字重复就判重,类似的,连续的几个颜色格子重复出现也代表了一定的特征,依然统计这些排列出现的频数,排成一列。

最终输入给Linear的X矩阵,类似于DNA的排列,把代表不同特征的片段堆叠起来,形成列向量。

2.损失函数 Loss function

损失函数是用来描述系统在不同参数下的损失,模型正是依靠损失函数的大小来选择不同的参数,损失函数有一个通用的表方式

CS231斯坦福深度视觉学习课程学习笔记——第3章

L代表损失函数,函数由两部分组成,

前边的一项是损失项,衡量了模型的评价能力,N代表了所有用来分类的样本,yi表示第i个样本被正确分类的类序号,j表示类序号,j不等于yi表示我们只计算误分类的损失,正确分类的损失是0,f表示分类器计算类别得分的过程。

后面一项是正则项,主要作用是降低模型复杂程度和防止模型过拟合,为正则项权重λ,R(W)为惩罚项,可以有几种形式,分别用语不同的具体情况。









未完待续。。。。。

CS231斯坦福深度视觉学习课程学习笔记——第3章

以上是我个人浅薄的理解,希望各位高手帮忙指正,有什么意见尽管提,我一定虚心改正,因为我不是学计算机的,这些数据分析步骤的程序语言我会随着学习逐步补全。




希望每个人都能对未知的领域保持最起码的敬畏和尊重