A multi-branch separable convolution neural network for pedestrian attribute recognition

动机：
DSC层由于其高效的学习能力和简化的参数集，已经在各种应用中得到应用。研究人员多年来利用卷积神经网络(convolutional neural networks, CNN)提出了各种解决方案，但是我们将DSC层引入到CNN中来解决行人属性识别的问题。
多年来，RGB一直是计算机视觉研究人员选择的颜色空间。其他著名的颜色空间包括YCrCb, HSV和Lab。在分离色度和亮度分量时，每个颜色空间都有其优点。对于视频的颜色压缩任务，YCrCb已被证明是非常有效的。HSV与设备无关，尤其是在颜色检测方面，它已经被证明是非常有用的(例如皮肤或毛发检测)。我们的目标是利用HSV的这种强大特性来帮助我们解决属性识别的问题。Lab与人类对颜色的感知非常接近，因此Lab中的颜色可以用欧几里得距离进行比较，结果表明也与人类对颜色的感知相匹配。

贡献：
据我们所知，这是第一个介绍深度可分卷积神经网络的行人属性识别问题的工作。
利用较少的参数有效地训练了多层网络。
使用新颖的颜色空间来训练网络。
在两个最具挑战性的公共数据集上，所提出的方法比现有的方法有更好的识别结果。

网络框架：
DSC层：

A multi-branch separable convolution neural network for pedestrian attribute recognition
每个输入通道(在我们的例子中是3个)都独立于其他通道进行处理。分割的通道与一个3*3空间滤波器进行卷积。与输出通道连接,然后用1 1n滤波器卷积。n匹配我们的通道的深度。这个过程大大减少了网络的参数数量，计算更少，速度更快模型更小。

总体框架：
A multi-branch separable convolution neural network for pedestrian attribute recognition
每个分支的输入分别是YCrCb、Lab、HSV颜色空间中的图像。每个分支的输出被连接起来，并在网络输出之前流经一系列全连接层。由图可以看出，。第一个块的网络深度为32通道，第二个块的深度为64通道，第三个块的深度为128通道，第四个块的深度为256通道，最后一个块的深度为512通道。每个YCrCb、Lab和HSV层的输出大小为2048。然后将这三个层连接到一个大小为6144的层。然后，网络包括三个大小分别为2048、1024和215的全连接(fc)层，最后是输出层。这个网络表示为dscl_fc_based.。
之后做了一个该网络的变体，将YCrCb、Lab和HSV层的输出连接起来，构造一个4×512×3的三维张量。将其视为大小为4×512的彩色图像，经过三次depthwise conv -> LeakyReLu -> BN -> max-pool ，输出被压扁到128个神经元的大小，然后是dropout层(prob = 0.35)。最终输出层的大小等于被测试参数的数量。该体系结构极大地减少了参数的数量，同时仍然保持了良好的精度结果，被称为dscl_conv_based。

参数数量如下表所示：
A multi-branch separable convolution neural network for pedestrian attribute recognition

实验：
作者在PETA和RAP两个数据集上进行实验，实验结果如下所示：
A multi-branch separable convolution neural network for pedestrian attribute recognition

作者用这两幅图来展示实验结果，是因为在accuracy方面取得的进步十分可观，通过表格二中的数据对比可以很明显的看出来。

A multi-branch separable convolution neural network for pedestrian attribute recognition

相关推荐