人群计数论文笔记之PaDNet:Pan-Density Crowd Counting

背景

人群计数的一个主要困难是背景和密度水平在真实场景中有明显的变化。
前人方法的缺点：大多数方法关注于一致的人群密度（稀疏或者密集人群）这意味着在全局估计性能好，然而忽略了局部精度。
Single-Column: 适用于单密度人群计数，不能完全捕获pan-density信息。
Multi_Column: 这些基于多尺度的方法不能准确识别特定密度的人群，也不能合理利用跨列网络学习到的特征，效率相对较低。
更合理的融合特征图的方法是为子网络分配不同的权值。
Switch-CNN: 它选择的是一个子网的结果，而不是对子网进行融合。密度的大的变化不仅存在于全局，也存在于局部。因此，单子网的识别性能有限，无法克服特征协变移位问题
cp-cnn: 结合上下文信息，以实现低计数错误和高质量密度地图. 然而，这种方法在预测全局和局部上下文时有很高的计算复杂度。此外，预测局部上下文是一项困难的任务，一旦预测有偏差，总体性能将受到严重限制。

为了使人群计数在现实中更加可用，在变化的人群密度中也能进行计数。提出了PAdnet.

为了能够良好的预测局部，提出了PaDNet.该网络包含三个关键部分。

该文主要针对这种图片的人群分布进行计数
即比较接近现实生活中集稀疏和密集人群一体的图片
人群计数论文笔记之PaDNet:Pan-Density Crowd Counting

常用的MAE和MSE不适用于Patch的评估。故采用以下评价指标：

网络结构

材料

一张图片720x720(每张图片裁成9份)，FEN（特征提取器）,DAN,FEL以及FFN.

工具
FEN : vgg16-10，Batch-normalization，relu
思路来源：Yosinski等人的工作认为网络前端学习任务无关的一般特征，类似于Gabor filter和color blobs，网络后端学习任务相关的特征。
DAN: SwitchCNN，conv
思路来源：CSRnet的工作表明，过多的池化层会减少feature map的空间信息。因此，在DAN中没有池化层
FEL （该网络给特征图分配权重）：Spatial pyramid pooling，fully conneated
FFN： conv，Batch-normalization，relu( 受U-Net和DenseNet启发，skip connection可以弥补丢失的信息，提高性能。)

加工流程
首先使用特征提取器（FEN）将输入图片的基本特征进行提取，提取的特征有512个通道。
在DAN中使用switchcnn中的方法将特征图分为不同level，并产生密度图yi.（这里的yi会使用Skip connection和FFN产生的密度图进行concatenate）该网络中的子网有4个不同级别
在FEL中先经过空间金字塔模型进行池化，将得到的特征进行concatenate，送入全连接层。
在FFN中，使用 Conv(7,64)， Conv(5,32)， Conv(3,32)，和Conv(1,1)。每个卷积层之后是Batch-normalization和ReLU .

出炉

一张高质量的密度图