A multi-branch separable convolution neural network for pedestrian attribute recognition

动机:
DSC层由于其高效的学习能力和简化的参数集,已经在各种应用中得到应用。研究人员多年来利用卷积神经网络(convolutional neural networks, CNN)提出了各种解决方案,但是我们将DSC层引入到CNN中来解决行人属性识别的问题。
多年来,RGB一直是计算机视觉研究人员选择的颜色空间。其他著名的颜色空间包括YCrCb, HSV和Lab。在分离色度和亮度分量时,每个颜色空间都有其优点。对于视频的颜色压缩任务,YCrCb已被证明是非常有效的。HSV与设备无关,尤其是在颜色检测方面,它已经被证明是非常有用的(例如皮肤或毛发检测)。我们的目标是利用HSV的这种强大特性来帮助我们解决属性识别的问题。Lab与人类对颜色的感知非常接近,因此Lab中的颜色可以用欧几里得距离进行比较,结果表明也与人类对颜色的感知相匹配。

贡献:
据我们所知,这是第一个介绍深度可分卷积神经网络的行人属性识别问题的工作。
利用较少的参数有效地训练了多层网络。
使用新颖的颜色空间来训练网络。
在两个最具挑战性的公共数据集上,所提出的方法比现有的方法有更好的识别结果。

网络框架:
DSC层:

A multi-branch separable convolution neural network for pedestrian attribute recognition
每个输入通道(在我们的例子中是3个)都独立于其他通道进行处理。分割的通道与一个3*3空间滤波器进行卷积。与输出通道连接,然后用1 1n滤波器卷积。n匹配我们的通道的深度。这个过程大大减少了网络的参数数量,计算更少,速度更快模型更小。

总体框架:
A multi-branch separable convolution neural network for pedestrian attribute recognition
每个分支的输入分别是YCrCb、Lab、HSV颜色空间中的图像。每个分支的输出被连接起来,并在网络输出之前流经一系列全连接层。由图可以看出,。第一个块的网络深度为32通道,第二个块的深度为64通道,第三个块的深度为128通道,第四个块的深度为256通道,最后一个块的深度为512通道。每个YCrCb、Lab和HSV层的输出大小为2048。然后将这三个层连接到一个大小为6144的层。然后,网络包括三个大小分别为2048、1024和215的全连接(fc)层,最后是输出层。这个网络表示为dscl_fc_based.。
之后做了一个该网络的变体,将YCrCb、Lab和HSV层的输出连接起来,构造一个4×512×3的三维张量。将其视为大小为4×512的彩色图像,经过三次depthwise conv -> LeakyReLu -> BN -> max-pool ,输出被压扁到128个神经元的大小,然后是dropout层(prob = 0.35)。最终输出层的大小等于被测试参数的数量。该体系结构极大地减少了参数的数量,同时仍然保持了良好的精度结果,被称为dscl_conv_based。

参数数量如下表所示:
A multi-branch separable convolution neural network for pedestrian attribute recognition

实验:
作者在PETA和RAP两个数据集上进行实验,实验结果如下所示:
A multi-branch separable convolution neural network for pedestrian attribute recognition
A multi-branch separable convolution neural network for pedestrian attribute recognition
A multi-branch separable convolution neural network for pedestrian attribute recognition
作者用这两幅图来展示实验结果,是因为在accuracy方面取得的进步十分可观,通过表格二中的数据对比可以很明显的看出来。