ICDAR 2019比赛及数据集下载-任务-ICDAR 2019场景文本视觉问答中的稳健阅读挑战
ICDAR 2019比赛及数据集下载
https://rrc.cvc.uab.es/?ch=11&com=tasks
任务-ICDAR 2019场景文本视觉问答中的稳健阅读挑战
挑战包含三个任务,它们都是2019年竞赛的新任务:
- 高度上下文相关,每个图像都有一个字典,其中包含出现在针对该图像问题定义的答案中的单词以及一系列干扰因素。
- 弱上下文化,参与者将拥有一个针对所有数据集图像的30,000个单词的独特词典,该词典是通过收集所有地面真实单词加干扰因子而形成的。
- 端到端,其中未给出可能的答案的预定义列表,并且必须通过以下方式自动生成正确的答案:处理图像上下文,阅读和理解图像中的文本信息。
数据集和工具
SceneText-VQA数据集包含23,000张图像,每个图像最多包含三个问题/答案对。提供了火车和试车。训练集由19000张图像和26000个问题组成,而测试集由3000张图像和每个任务4000个问题组成。图1给出了预期的问题和答案类型的示例。
图1. 此图像可能的问题/答案对可能是:
(Q)图像底部出现了哪个苏打水品牌?(A)可口可乐。
除了数据集,我们还提供了一组实用程序功能和脚本,用于通过RRC在线平台评估和可视化提交的结果,以及可以脱机使用的独立代码和实用程序(后者在比赛后提供)已完成)。
任务1-紧密关联
在第一个任务中,将为参与者提供每个图像的可能答案的不同列表。该列表将包含图像中出现的一些单词,以及一些额外的词典单词。这样,每个图像将包含相对较小但不同的可能答案集。对于上面的示例图像,将为参与者提供一个列表,其中包括以下单词以及一些词典单词:
[公众,市场,中心,可口可乐,农民,享受……]
任务2-弱关联
在此任务中,将为参与者提供完整数据集的可能答案的完整列表,并补充一些词典单词。尽管对于数据集中的所有图像,可能答案的列表将是相同的(静态列表),但是该列表比上一个任务的答案集要大得多。该词典由30,000个单词组成,这些单词是通过收集所有22k个地面真实单词加上8k个生成的词汇形成的。
任务3-打开字典
端到端任务是最通用且最具挑战性的任务,因为事先没有提供任何答案。通过分析图像的视觉环境以及阅读和理解所有图像所包含的文字信息,提交的用于此任务的方法应该能够生成正确的答案。
评估指标
在所有这三个任务中,评估指标将是平均标准化Levenshtein相似度(ANLS)。ANLS可以顺利捕获OCR错误,并在预期的正确回答的情况下进行了轻微的惩罚,但识别度很差。它还使用值0.5的阈值,该阈值指示如果度量的值等于或大于0.5或0,则度量的输出将是ANLS。此阈值的关键是确定答案是否已正确选择但未正确识别,或者相反,输出是从选项中选择并给出答案的错误文本。
更正式地讲,净输出与地面真相答案之间的ANLS 由等式1 给出。其中N是问题总数,M是每个问题的GT答案总数,ij是地面真相答案,其中i = {0, ...,N},且j = {0,...,M},o q i是第i 个问题q i的网络答案。
它不区分大小写,但是对空间敏感。例如:
问:红盘上的软饮料公司名称是什么?
可能的不同答案:
-
一I1:可口可乐
-
一个我2:可口可乐公司
投稿格式
每个任务的提交文件应该只有一个。应该将其格式化为包含字典列表的JSON文件,其中有两个键:“ questions_id”和“ answer”。“ question_id”键代表问题的唯一ID,而键“ answer”应为模型的输出。例如,结果文件可能命名为:result_task1.json,并将包含类似于以下内容的列表:
[
{'answer':'Coca','question_id':1},
{'answer':'停止','question_id':2},
{'answer':'delta','question_id':3},
...,
...,
]
下载-ICDAR 2019场景文本视觉问答中的稳健阅读挑战
下载
训练集:
您可以在下面下载图像和json文件:
- 高度上下文相关的任务1:datasets.cvc.uab.es/rrc/train_task_1.json
- 弱上下文相关任务2:datasets.cvc.uab.es/rrc/train_task_2.json
- 端到端任务3:datasets.cvc.uab.es/rrc/train_task_3.json
- 训练图像:datasets.cvc.uab.es/rrc/ST-VQA.tar.gz
测试集:
- 任务1测试图像:datasets.cvc.uab.es/rrc/test_task1_imgs.tar.gz
- 任务2测试图像:datasets.cvc.uab.es/rrc/test_task2_imgs.tar.gz
- 任务3测试图像:datasets.cvc.uab.es/rrc/test_task3_imgs.tar.gz
- 任务1 json文件:datasets.cvc.uab.es/rrc/test_task_1.json
- 任务2 json文件:datasets.cvc.uab.es/rrc/test_task_2.json
- 任务3 json文件:datasets.cvc.uab.es/rrc/test_task_3.json
描述
- 用于训练和验证集的图像来自多个数据集,即;ICDAR,ImageNet,VizWiz,IIIT Street Text,COCO-Text和Visual Genome。
- 论文中的编号应在4月15日发布的测试仪上报告。
- 我们为Task-1的每个图像提供一个字典,为Task-2的完整数据集提供一个字典,而对于Task-3则没有额外的信息(有关详细信息,请参阅“ 任务”说明)。
注释说明
每个任务的注释都发布在JSON文件中。JSOn文件具有表1第一行中所示的结构。在第二行中,“数据”字段详细说明。
任务1
|
任务2
|
任务3
|
{ “数据”:[ 每个问题ID的词典列表 ], “ task_name”:“任务1-高度关联”, “ dataset_name”:“ st-vqa” }
|
{ “数据”:[ 每个问题ID的词典列表 ], “ task_name”:“任务2-弱关联”, “ dataset_name”:“ st-vqa”, “字典”:[ 所有词汇表 ] } |
{ “数据”:[ 每个问题ID的词典列表 ], “ task_name”:“任务3-打开”, “ dataset_name”:“ st-vqa” }
|
{ “ set_name”:训练或测试分组, “ file_name”:图像文件的名称, “数据集”:图像数据集源, “ image_width”:整数,图像的宽度, “ image_height”:整数,图像的高度, “问题”:问题字符串 “答案”:[ 正确答案列表(基本事实) ], “ question_tokens”:[ 来自已标记化问题的单词列表 ], “字典”:[ 100个可能的正确答案列表 ], “ file_path”:根目录中的相对图像路径, “ question_id”:表示唯一ID的整数 } |
{ “ set_name”:训练或测试分组, “ file_name”:图像文件的名称, “数据集”:图像数据集源, “ image_width”:整数,图像的宽度, “ image_height”:整数,图像的高度, “问题”:问题字符串 “答案”:[ 正确答案列表(基本事实) ], “ question_tokens”:[ 来自已标记化问题的单词列表 ], “ file_path”:根目录中的相对图像路径, “ question_id”:表示唯一ID的整数 }
|
{ “ set_name”:训练或测试分组, “ file_name”:图像文件的名称, “数据集”:图像数据集源, “ image_width”:整数,图像的宽度, “ image_height”:整数,图像的高度, “问题”:问题字符串 “答案”:[ 正确答案列表(基本事实) ], “ question_tokens”:[ 来自已标记化问题的单词列表 ], “ file_path”:根目录中的相对图像路径, “ question_id”:表示唯一ID的整数 }
|
表1:注释描述表