一、背景

文章题目：《Scene Text Visual Question Answering》

ICCV2019的一篇文章，作者主要来自西班牙。

文章下载地址：http://openaccess.thecvf.com/content_ICCV_2019/papers/Biten_Scene_Text_Visual_Question_Answering_ICCV_2019_paper.pdf

文章引用格式：A. F. Biten, R. Tito, A. Mafla, L. Gomez, M. Rusinol, E. Valveny, C.V. Jawahar, D. Karatzas. "Scene Text Visual Question Answering." International Conference on Computer Vision (ICCV), 2019

项目地址：暂时没有

二、文章导读

先来看一下文章的摘要部分：

Current visual question answering datasets do not consider the rich semantic information conveyed by text within an image. In this work, we present a new dataset, ST-VQA, that aims to highlight the importance of exploiting highlevel semantic information present in images as textual cues in the Visual Question Answering process. We use this dataset to define a series of tasks of increasing difficulty for which reading the scene text in the context provided by the visual information is necessary to reason and generate an appropriate answer. We propose a new evaluation metric for these tasks to account both for reasoning errors as well as shortcomings of the text recognition module. In addition we put forward a series of baseline methods, which provide further insight to the newly released dataset, and set the scene for further research.

当前的VQA最主要的问题在于没有考虑图像中文本的语义信息。基于此原因，作者提出了一个新的数据集，ST-VQA，目的在于强调探索图像中出现的高级语义信息的重要性，并将该信息作为文本线索用于视觉问答过程。我们使用这个数据集来定义一系列难度越来越大的任务，对于这些任务，在视觉信息提供的上下文中读取场景文本是推理和生成适当答案所必需的。针对这些任务，我们提出了一种新的评估指标，既考虑了文本识别模块的推理错误，也考虑了文本识别模块的缺陷。此外，我们还提出了一系列baseline，为新发布的数据集提供了进一步的视角，为进一步的研究奠定了基础。

三、文章详细介绍

人造环境中的文本往往能够传达出一种重要的高级语义信息，比如有商品的购物信息，交通信息等，在MSCOCO数据集中，超过了50%的图像中都包含有文本信息，在城市环境中这种现象则更多。因此设计模型充分来识别利用这些信息是非常有必要的，场景文本的理解不应是一个边缘研究问题，而是一个核心问题。

目前，VQA的模型和数据集大多都忽略了这个问题，因此作者在VQA中将结合这两个方面展开研究。在现有的VQA模型中整合文本模态并不是一件容易的事，一方面，场景中有关的文本信息，需要进行建立复杂的推理，该过程涉及位置，颜色，目标，语义，到定位，识别，解译。另一方面，目前的VQA大多都是分类模型，这些模型表现出了非常强的语言偏见，比如对于计数问题，比较问题和属性识别问题。这些都一定程度的限制了场景文本的直接使用。

本文提出了一个新的数据集ST-VQA（Scene Text Visual Question Answering），该数据集中的问题被限制为只能提问和图像中出现的文字相关的问题，其中的85.5%的问题和答案都可以拿出来用到VQA模型中，样本的一些例子如下：

【文献阅读】利用图像中的场景文本进行视觉问答（A. F. Biten等人，ICCV，2019）

其次，作者还介绍了3种高难度任务，以模拟不同程度上下文信息的可用性。最后，作者使用了一种新的评价标准，来判别模型回答问题的能力，这里作者使用到了Levenshtein距离，该距离既考虑到了推理的错误，又考虑到了文本识别系统的不足。另外，这个数据集目前公布在：https://rrc.cvc.uab.es/?ch=11

1.相关工作

2.ST-VQA数据集

3.方法和结果

四、小结