【论文阅读】Emotion-Aware Human Attention Prediction

Cordel M O, Fan S, Shen Z, et al. Emotion-Aware Human Attention Prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4026-4035.

摘要:
尽管最近在人脸识别和物体分类方面取得了成功,但在人类注视预测领域,计算机模型仍然难以准确地模仿人类的注意力。一个主要原因是,视觉注意力是一种复杂的人类行为,受到多种因素的影响,从低层次的特征(如颜色、对比度)到高层次的人类感知(如物体的相互作用、物体的情感),使得很难进行计算建模。本文探讨了客体情感与人的注意之间的关系。首先介绍了一种改进的评价指标(AttI),用于测量人类的注意力,侧重于人类的固定共识。与AttI的一系列实证数据分析表明,情绪唤起的对象得到注意偏好,特别是当它们与情绪中立的对象同时出现时,这种偏好随着图像复杂度的不同而不同。在实证分析的基础上,设计了一个深度神经网络用于人类注意力预测,该神经网络允许在其特征空间中对情绪唤起对象的注意力偏差进行编码。在两个基准数据集上的实验证明了它的优越性能,特别是在评价突出区域相对重要性的指标上。这项研究提供了迄今为止最清晰的关于物体情绪如何影响人类注意力的图像,并首次尝试用计算机模拟这一现象。
实验模型及创新性:

【论文阅读】Emotion-Aware Human Attention Prediction
提出了一个情感感知显著模型,有两个分支:(1)情感特征提取和(2)情感掩码生成。情感特征提取学习图片的情感和多尺度信息形成情感特征图。情感掩码生成检测和定位可能引起情绪的物体,预测所引发的情绪,并且调整特征图中相应情感区域的预测显著性。使用一个子网络(绿色方框)基于检测的图片的复杂度(对象的数量)和图像*出现的情感类型数结合这两个分支。如果ReLU的输出比0大,所有特征图会通过最后的卷积块结合。下面描述这两个分支以及它们的结合机制,这与经验数据分析类似。在情感掩码生成分支中实现了两个步骤。首先,使用Mask-RCNN来生成对象建议的轮廓。然后将对象建议传递给基于GoogleNet的对象情绪分类(图4,左下)来推断对象情绪。情感掩模生成分支输出三种重要的人类注意信息:对象轮廓、对象位置和对象情感。