动手学深度学习笔记7目标检测与图像风格迁移

一、目标检测基础
一、目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。
这里我们介绍其中的一种方法:它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)。
锚框生成
动手学深度学习笔记7目标检测与图像风格迁移
二、交并比:
如果该目标的真实边界框已知,这里的“较好”该如何量化呢?一种直观的方法是衡量锚框和真实边界框之间的相似度。我们知道,Jaccard系数(Jaccard index)可以衡量两个集合的相似度。给定集合 A 和 B ,它们的Jaccard系数即二者交集大小除以二者并集大小:
动手学深度学习笔记7目标检测与图像风格迁移
实际上,我们可以把边界框内的像素区域看成是像素的集合。如此一来,我们可以用两个边界框的像素集合的Jaccard系数衡量这两个边界框的相似度。当衡量两个边界框的相似度时,我们通常将Jaccard系数称为交并比(Intersection over Union,IoU),即两个边界框相交面积与相并面积之比,如图。交并比的取值范围在0和1之间:0表示两个边界框无重合像素,1表示两个边界框相等。
动手学深度学习笔记7目标检测与图像风格迁移
三、当锚框数量较多时,同一个目标上可能会输出较多相似的预测边界框。为了使结果更加简洁,我们可以移除相似的预测边界框。常用的方法叫作非极大值抑制(non-maximum suppression,NMS)。
我们来描述一下非极大值抑制的工作原理。对于一个预测边界框 B,模型会计算各个类别的预测概率。设其中最大的预测概率为 p ,该概率所对应的类别即 B 的预测类别。我们也将 p 称为预测边界框 B 的置信度。在同一图像上,我们将预测类别非背景的预测边界框按置信度从高到低排序,得到列表 L 。从 L 中选取置信度最高的预测边界框 B1 作为基准,将所有与 B1 的交并比大于某阈值的非基准预测边界框从 L 中移除。这里的阈值是预先设定的超参数。此时, L 保留了置信度最高的预测边界框并移除了与其相似的其他预测边界框。 接下来,从 L 中选取置信度第二高的预测边界框 B2作为基准,将所有与 B2 的交并比大于某阈值的非基准预测边界框从 L中移除。重复这一过程,直到 L中所有的预测边界框都曾作为基准。此时 L 中任意一对预测边界框的交并比都小于阈值。最终,输出列表 L中的所有预测边界框。
二、图像风格迁移
样式迁移:使用卷积神经网络自动将某图像中的样式应用在另一图像之上
内容图像:整体
样式图像:细节

动手学深度学习笔记7目标检测与图像风格迁移
一、方法:
1.首先,我们初始化合成图像,例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量,即样式迁移所需迭代的模型参数
二、特征抽取:
为了抽取图像的内容特征和样式特征,我们可以选择VGG网络中某些层的输出。一般来说,越靠近输入层的输出越容易抽取图像的细节信息反之则越容易抽取图像的全局信息。为了避免合成图像过多保留内容图像的细节,我们选择VGG较靠近输出的层,也称内容层,来输出图像的内容特征。我们还从VGG中选择不同层的输出来匹配局部和全局的样式,这些层也叫样式层。
三、定义损失函数:由内容损失、样式损失和总变差损失3部分组成
1.内容损失:
动手学深度学习笔记7目标检测与图像风格迁移
2.样式损失:
动手学深度学习笔记7目标检测与图像风格迁移
动手学深度学习笔记7目标检测与图像风格迁移
3.总变差损失
动手学深度学习笔记7目标检测与图像风格迁移
动手学深度学习笔记7目标检测与图像风格迁移