Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读

原文链接与github源码地址

overview

人脸表情识别面临了很多挑战,如光照、姿态、遮挡、个体差异、数据不充分等。作者主要是针对姿态和遮挡这两个难题进行研究,从现有的数据库(FERPlus、AffectNet、RAF-DB)中筛选出数据组成测试数据集(Occlusion-FERPlus、Pose-FerPlus、Occlusion-AffectNet、Post-AffectNet、Occlusion-RAF-DB、Pose-RAF-DB),然后设计出Region Attention的网络结构,并提出一个新的损失函数(Region Biased Loss),在多个数据集上性能都有所提升。

Inspiration

  1. an occluded mouth degrades FER more than occluded eyes on JAFFE and CK[1]^{[1]}. 遮挡嘴巴对人脸表情识别性能的影响要大于遮挡眼睛的影响。
  2. Psychological studies indicated that human can effectively exploit both local regions and holistic faces to perceive the semantics delivered through incomplete faces[2]^{[2]}.人之所以能对存在遮挡或姿态偏转的人脸表情准确识别是因为人的注意力机制有效将局部特征信息与全局特征信息相结合。

Network architecture

Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读
RAN由三个模块组成:特征提取模块、Self-attention模块和Relation-attention模块。

特征提取模块

首先对原始人脸copy一份,然后再对人脸裁剪k份(有三种策略,后面会详细介绍)。都经过相同的CNN(VGG或ResNet)结构进行特征提取,这里权值共享。

Self-attention模块

下面先介绍一些符号表示:
I:Face Image; I0I_0: its duplicate(原始图像的copy)
I0I1IkI_0、I_1、\dots、 I_k: its crops(原始图像的crop)
r(.,θ)r(., \theta): backbone CNN(CNN网络)

图像I的特征为:
X=[F0,F1,,Fk]=[r(I0,θ)r(I1,θ,,r(Ik,θ))]X = [F_0, F_1, \dots, F_k] = [r(I_0, \theta ), r(I_1, \theta , \dots, r(I_k, \theta ))]
第i个裁剪区域的权重记为μi\mu _i为:
μi=f(FiTq0)\mu _i = f(F_i^Tq^0)其中q0q_0表示FC的参数而f表示的是**函数 。即将局部区域提取的特征经过一个全边接层,然后经过**函数得到对应权重。
全局特征表示为(Gloabl representation)
Fm=1i=0nμii=0nμiFiF_m = \frac{1}{\sum_{i = 0}^{n}\mu _{i}} \sum\limits^{n}_{i = 0}\mu _i F_i
将局部区域进行加权表示整体特征

Relation-attention模块

vi=f((Fi:Fm)Tq1)v_i = f((F_i:F_m)^Tq^1)
FiF_i表示区域提取特征将其与整体特征FmF_m作一个concat操作,然后经过全连接层再经过**函数,得到结合局部与整体的特征的权重。
PRAN=1i=1nμivii=0nμivi[Fi:Fm]P_{RAN} = \frac{1}{\sum^n_{i=1}\mu _i v_i} \sum\limits^n_{i=0}\mu_iv_i[F_i:F_m]
同样将得到特征进行加权求得一个新的全局特征PRANP_{RAN}。这个特征作者在后面与FmF_m做过对比。

crop的三种策略

  1. Fixed Crop
    Fixed Crop: top-left、top-right、center-down(0.75)、center(0.85)、center(0.9)
  2. Landmarks Based Crop
    Landmarks Based Crop: MTCNN(左眼、右眼、鼻子、嘴左边角、嘴右边角)
  3. Randomly Crop
    Randomly Crop: randomly crop N regions(0.7-0.95)

三种crop策略的性能比较

Evaluation of region generation strategies

Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读

RB-Loss

LRB=max(0,α(μmaxμ0))L_{RB} = max(0, \alpha - (\mu_{max} - \mu_0))
受到“不同的表情是由不同的表情区域决定的”的相关研究的启发,作者希望对self-Attention中的权重作出直接的限制,使裁剪区域中至少有一个的权重要大于原始人脸特征所占的权重。基于此提出了Region Biased Loss的损失函数,其中α\alpha是超参数,μ0\mu_0表示copy人脸的特征所占的权重,μmax\mu_{max}表示所有裁剪人脸中特征所占的最大权重。在训练中,在分类损失函数中加入RB-Loss。作者在后面对该损失函数对实验性能的影响做了相关的实验比较。

Datasets

Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读
Occlusion-FERPlus, Pose-FERPlus, Occlusion-AffectNet, Pose-AffectNet, Occlusion-RAF-DB, and Pose-RAF-DB for testing

Pose: pitch, yaw, roll(通过人脸对齐能消除)
Occlusion: 戴面具、戴眼睛、遮挡物体在左、右、上、下及没有遮挡

expriments

RAN与Baseline在作者创建的数据库的性能比较

Performance comparison between the proposed RAN and baseline method with occlusion and variant pose conditions.
Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读

对RAN中所有的组成部分的实验

Evaluation of all components of our RAN along with face alignment on FERPlus.
Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读

RAN与最新的方法在FerPlus上的性能比较

Comparison to the state-of-the-art results on the FERPlus dataset.These results are trained using label distribution as supervison.
Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读

RAN与最新的方法在AffectNet上的性能比较

Comparison to the state-of-the-art results on the AffectNet dataset
Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读

RAN与最新的方法在SFEW上的性能比较

Comparison to the state-of-the-art results on the SFEW dataset
Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition文章解读

conclusion

  1. Region Attention Networks(RAN)
  2. New FER test datasets
  3. Region Biased loss(RB-loss)
    作者在这篇文章我归纳有三点创新:首先提出一个RAN的网络结构,在已有的数据库中筛选出遮挡和姿态问题的图片组成了测试数据集。另外有一点小贡献是提出了RB-loss。作者的方法在几个数据集上都有性能的提升,证明了它网络的可行性。

参考文献

[1] An analysis of facial expression recognition under partial facial image occlusion
[2] Specialized face perception mechanisms extract both part and spacing information: Evidence from developmental prosopagnosia