2019-2020年, VQA论文汇总

XNMs: CVPR2019

下载链接
南洋理工大学张含望老师小组的工作.

  • 动机
    在NMN (神经模块网络) 出现之前, 针对VQA任务提出的方法都是黑箱的, 是连接主义"流派"的, 神经网络会直接基于数据集学到inductive bias, 使得模型的结果缺乏可解释性. NMN在连接主义和符号主义之间"架设"了一座桥梁, 使后来的VQA方法具有了可解释性. 但是使用NMN需要仔细设计每个模块的内部细节, 不易拓展.
  • 贡献
  1. 在CLEVR和CLEVR-CoGent数据集上达到100%准确率.
  2. 和现有NMN方法相比, 具有的参数量很少.
  3. 泛化能力强.
  4. 具有高可解释性和高显性.
  • 方法
    本文方法的整体框架如图所示:
    2019-2020年, VQA论文汇总
    首先, 对于给定的image进行scene grpah parsing (场景图解析). 然后, 对于给定的question进行program generation. 最后, 在场景图上进行reasoning即可. 整个方法的流程看起来很简单, 而且在实验部分可以看出, 本文方法十分work, 可以在CLEVR数据集上达到100%的准确率.

    本文在场景图上预设了四种不同的meta-types, 分别为: ① AttendNode (代表"实体"). ② AttendEdge (代表"实体"之间的"关系"). ③ Transfer (根据"关系"对"实体"进行转化). ④ Logic (与, 或, 非等逻辑操作). 以上四种操作在文中都有详细的介绍, 这里不多做解释.
2019-2020年, VQA论文汇总2019-2020年, VQA论文汇总2019-2020年, VQA论文汇总

Transfer操作如下图所示:
2019-2020年, VQA论文汇总

  • 实验
    在CLEVR数据集上的实验结果. XNM-Det表示所有的物体都是使用某种检测模型得到的, XNM-GT表示所有的物体都是直接使用的Ground-Truth. Program的也有两种选项, supervised表示使用训练得到的program generator, GT表示直接使用Ground-Truth. 可以看出, 只要在物体检测阶段足够给力, 无论使用哪种program generator, 都可以达到很高的准确率.
    2019-2020年, VQA论文汇总
    从下图可以看出, 本文方法的收敛速度很快
    2019-2020年, VQA论文汇总
    下图是在CLEVR-CoGenT数据集上的结果:
    2019-2020年, VQA论文汇总