YOLOv4(二)

Path Aggression Network(PAN)

在早期DL中,模型设计相对简单。每一层从前一层获取输入。早期层提取局部纹理和模式信息,建立后期层所需的语义信息。然而,当我们向右移动时,微调预测所需的局部信息可能会丢失。

YOLOv4(二)

在之后的DL开发中,层之间的互连变得越来越复杂。在DenseNet中,它走到了极端。每一层都与之前的所有层相连。

YOLOv4(二)

在FPN中,自底向上和自顶向下的流将相邻层的信息组合在一起。

YOLOv4(二)

层之间的信息流成为模型设计中的另一个关键决策。

 

下图是用于对象检测的路径聚合网络(PAN)。增加了自底向上的路径(b),使低层信息更容易传播到顶层。在FPN中,局部空间信息在红色箭头处向上传递。虽然图中没有清楚地显示,但红色的路径经过了大约100多个层。PAN引入了一条捷径(绿色路径),它只需要大约10层就可以到达最上面的N层。这种短路的概念使得最上层可以获得精确的局部信息。

YOLOv4(二)

作为一个边注,颈部设计可以可视化如下:

YOLOv4(二)

但是,在YOLOv4中,特性映射是连接在一起的,而不是添加相邻的层。

YOLOv4(二)

在FPN中,目标是在不同尺度上分别独立地进行检测的。这可能会产生重复的预测,而不能利用来自其他特征图的信息。PAN首先使用element-wise max操作将所有层的信息融合在一起(这里我们将跳过细节)。

 

Spatial Attention Module (SAM)

注意力在DL设计中被广泛采用。在SAM中,最大池和平均池分别用于输入feature map,创建两组feature map。结果被输入到一个卷积层,接着是一个sigmoid型函数来创建空间注意力(spatial attention)。

YOLOv4(二)

将空间注意掩模应用于输入特征,输出精细的特征图。

YOLOv4(二)

在YOLOv4中,使用修改后的SAM,而没有用最大池化或平均池化。

YOLOv4(二)

在YOLOv4中,FPN概念逐渐被实现/替换为经过修改的SPP、PAN。