5.Datasets statistics and analysis

本部分介绍VG各个组件的统计特性和分析。特别地，我们检查了图片的分布、区域描述和问答对。我们分析了区域图和场景图，同时也将它们拆分成了物体、属性和关系分别研究每个部分。最后，我们描述了我们的规范化流水线和结果。

5.1 Image selection

VG数据集包含了108077张图片，来自于MS-COCO的328000张和YFCC100M的100百万张的交集。这使得VG的标注可以和YFCC以及MS-COCO的分割以及全图caption一起使用。这些图片都是由用户上传到Flickrr的真实世界的、非图像符号的图片。这些图片的最小宽度为72像素，最长宽度为1280像素，平均为500像素。我们会收集WordNet的同义词集好让我们的108077张图片可以使用和ImageNet一样的手段进行归类。VG图片可以归为972种ImageNet同义词集。注意物体、属性和关系可以分别被归类到超过18K种WordNet同义词集。图13展示了最平凡出现的一些image synsets，比如ski出现了2612张图。我们的数据集比较侧重于人的图片，这也可以从图13看出来，尽管这些图片又各大不相同。

5.2 Region description statistics

VG的一个基本组件是区域描述，每张图平均有50个具有bounding box和描述短语的区域。图14（图略）就是一个示例，我们在示意图中为了简单只标出了6个描述的bounding box，这些描述都很不同并且可能关注单个物体如“A bag”，有可能关注多个物体如“Man taking a photo of the elephants”。这些描述不仅包含了图片最明显的部分，比如“An elephant taking food from a woman”，同样也包含了背景信息，比如“Small buildings surrounded by trees”。
MS-COCO数据集在单一的场景层次描述符上生成variations表现很好。考虑MS-COCO数据集在一副相似图片上的三个句子，“there is a person petting a very large elephant”，“a person touching an elephant in front of a wall”，“a man in white shirt petting the cheek of an elephant”。这三个句子都是单一的场景层次的描述。相较而言，VG里的描述更强调图片里不同的区域也因此在语义上就不那么相似。为了保证描述的多样性，我们在描述之间使用BLEU分数阈值保证描述的差异。

Visual Genome视觉基因组(3)
区域描述必须要足够具体（specific）以描述单独的物体（如“A bag”），又必须要足够general以能够描述高层次的概念（如“A man being chased by a bear”）。定性地讲，我们指出能够覆盖图片的大部分区域的描述通常是比较general的，反之覆盖小部分的则是较为specific的描述。在图15(a)中，展示了区域的宽度（按图片的宽度进行了归一化）分布。可以看出大部分区域只有图片的10%到15%的宽度，但是也可以注意到有许多区域占了图片的100%宽度。这些区域经常包括了像“sky”，“ocean”，“snow”，“mountain”等等没有边际因此铺在整张图的宽度上的元素。图15(b)中我们看到在高度上也有类似的分布，不过100%的情况和宽度的分布就少很多了，因为很少有能垂直分布分布在整个图片高度上的物件。在所有的描述之中，只有一个或者两个是类似于MS-COCO的那种全局性描述。
Visual Genome视觉基因组(3)

图16是区域描述的短语长度的分布。平均长度大约5个单词，最小1个词，最多12个。在图18(a)中，我们画出了区域描述中最常见的短语（省略了stop words）。一些常见的视觉元素像“green grass”，“tree [in] distance”,“blue sky”等远比其它的更细微的元素（如fresh strawberry）出现得多。我们也在图18(b)中研究了具有更好的精度的描述，我们画出了描述中最常出现的词语（去掉了stop words）。我们看出VG中颜色出现的非常频繁，我们在MS-CCOO和Flickr 30K做了类似的统计，也发现了相似的规律。除了颜色，我们也像“man”和“tree”这样的常见物体或者“sky”这样的共同视觉元素也出现的很频繁。
语义多样性：我们研究了描述中的实际语义内容，我们用无监督的手段分析了这些描述的语义。特别地，我们使用word2vec的在googlenews预训练模型来将每个单词转换为一个300维的向量，这个流水线可以在图17中看到。我们对所有的区域描述vector使用了层次性的凝聚聚类并且找到了71个语义或者句法类。图19(a)就展示了4个那样的例子，一个类包含的描述都与tennis有关，如“A man swings the racquet”和“White lines on the ground of tennis court”，另一个类又包含类关于数字的描述，如“Three dogs on the ground”和“Two people inside the tent”。为了量化地度量VG区域描述的多样性，我们计算了在单张图片的区域描述中出现的类的数目，并且在图19(b)展示了这种多样性的分布。我们发现平均每张图含有17个不同的区域描述类，最少的有4个，最多的有26个。
最后，我们比较了VG的描述和MS-COCO的caption。首先我们去掉stop words集成了VG和MS-COCO中所有的描述，去掉stop words之后的两个数据集的描述的长度都差不多。我们做了类似的语义多样性的研究，发现MS-COCO平均每张图只有2类captions，甚至很少有5类的。当然这是由于MS-COCO每张图片只有5个captions，为了公平起见，我们对VG的每张图片随机抽取了5个描述做了同样的统计，发现平均都有4到5类，这可以在图19©看到。
Visual Genome视觉基因组(3)

5.3 Object Statistics

和相关的数据集相比，VG在物体的密度和多样性上表现都很好（表3）。VG平均每张图有35个物体，远大于其他数据集。从图21可以看出，VG中是物体类别也是远远大于其他数据集的。这个比较是恰当的，因为MS-COCO和我们的VG用的是相同的图片。而每类物体的个数较少则是因为总的类别数太多。和ILSVRC 2014比较时，VG只考虑top-200个类别，并且每类只有大约2239个物体。和MS-COCO比较时，则考虑top-80的类别，每个类大约有3768个物体。
Visual Genome视觉基因组(3)
VG的3843636个物体来自于很多类别。如图22(b)所示，与WordNet中如human、animal 、sports和scenery等类别有关的物体是最常见的；这与图片主体的一般偏置是一致的。常见的物体像man、person和woman的出现次数分别是24K、17K和11K。其它同样在MS-COCO中出现的物体在VG中平均出现5000次。图22(a)展示了一些图片中的物体的例子。VG中的物体分布在一个多样的WordNet类别集合中，比如food、animal和man-made structures。
不仅应该看我们有哪些类型的物体，研究这些物体在图片和区域的分布也很重要。图20(a)展示了我们平均每个区域上有0到2个物体。一个区域描述有可能不含物体，比如“it is dark outside”就没有涉及到任何物体。只有一个物体的区域的描述往往也是针对这个物体的属性，而含有多个物体的区域的描述则既包括了属性还有物体之间的关系。
Visual Genome视觉基因组(3)

如图20(b)所示，每张图平均有35个不一样的物体。由于数据集本身存在的图片的偏置，我们对于men的标注是对于women的两倍。

5.4 Attribute statistics

属性可以允许细节的描述和对我们数据集物体的消歧，VG一共有2.8百万个属性，共68111种。属性主要包括了颜色（green）、尺寸（tall）、连续动作状态（standing）以及材料（plastic）等等，并且一个物体可能有多个属性。
Visual Genome视觉基因组(3)
从图23可以看出，VG中平均每张图片有26个属性，每个区域平均有一个属性，大约34%的区域描述不含属性，这是因为许多区域描述主要关注关系。图24(a)展示了数据集中大部分常见属性的分布，颜色（如white、green）是最多的，尺寸（如large）和材料（如wooden）也很多。图24(b)展示了描述人的属性的分布，最常见的属性是一些描述运动状态的不及物动词（如standing、walking）。特定的运动（如skiing、surfboarding）出现得很多是因为这类图片比较多。
属性图（Attribute Graphs）：我们也通过构建同时出现图（co-occurrence graph） 量化地分析了数据集中的属性。图中的节点时不同的属性，两个节点之间的边代表这有个物体同时具备这两个属性。比如一张图有“large black dog”，另一张图有“large yellow cat”，那么图就是(large,black),(large,yellow)。我们会构建两个图：一个关注所有的物体和属性、另一个只考虑指代人的objects及其属性。图25(a)展示了16个最常见的与人有关的属性。
同时出现图中的团（clique，两两之间都有边的顶点集合) 代表了属性的集合，并且每对属性之间都至少存在一次共同出现。比如在上一段的例子上，加入一张图有“black and yellow taxi”，那么就会得到一个团。当在整个VG数据集上计算的时候，这些团会帮助我们洞察不同类型的物体的常见特点。图25(b)是三个团的示例，并且这些团之间有所重叠。通过一个属性团，我们可以预测那些经常指代的物体类型。在图25(b)中，三个团分别是描述animal、water body和human hair的。
其它没有展示的团同样也可以唯一地确定物体类别。比如在我们的数据集中，一个团包含了athletic、young、fit、skateboarding、focused、teenager、male、skinny以及happy，那么这个团其实捕捉了我们数据集中skateboarders这一类物体的一些常见特征。又比如另一个团有shiny、small、metal、silver、rusty、parked和empty则描述了车的一个子集。从这些团中，我们可以基于它们的属性来推断其类别，潜在地允许了基于特征的高度具体的物体确定。
Visual Genome视觉基因组(3)

5.5 Relationship statistics
关系是场景图中连接物体的核心组件，并且关系是有向的 。我们把关系按如下形式记录relationship(subject,object) 。比如我们将man is swinging a bat记作swinging(man,bat)。关系主要是空间关系 (spatial,如inside of)，动作 (action，如swinging)以及组成关系 (compositional,如part of)等等。还有一些更复杂的关系，比如standing on既有动作又有空间。VG一共有42374中不同的关系，总关系数目为2347187百万个。
图26(a)展示了每个区域描述的关系的分布。平均每个区域描述有1个关系，最多的7个关系，当然也有一些描述不存在关系。图26(b)是每个object拥有的关系的分布。图26©则是每张图片上关系的分布。每张图片平均有19个关系，至少有1个关系，最多的有80个关系。
Top relationship distributions. 我们在图27(a)中展示了最常出现的关系。on是出现的最多的，主要是因为这个单词的灵活性，它可以指代空间关系（on top of）、依附关系（hanging on）等等。其它一些常见的关系包括动作，像holding、wearing，以及空间关系，像behind、next to和under。图27(b)展示了一个类似的分布，不过物体涉及的都是人，于是我们注意到更多的human-centric的关系或者动作，像kissing、chatting with和talking to等等。这两个分布都符合Zipf分布。zipf定律就是说某个单词在语料库中的出现频率与其频率排名的常数幂次成反比关系，可以简单地表述为二八定律，即出现最多的单词其实只占整个语料库的很少一部分。
Understanding affordance.关系可以让我们理解物体的affordance。图28(a)展示了riding的subject的分布，图28(b)则展示riding的object的分布。比较这两幅图我们可以发现people-like的实体如person、man等等可以ride其它的物体。我们说第二幅图的这些物体像horse、bike、elephant等等afford（翻译成，支持？） riding这个动作。我们也可以学习到特定的常识，像zebras eat hay或者grass，而person eat pizzas或者burgers，还有像couches上面经常会有pillows。
Visual Genome视觉基因组(3)

5.6 Regions and Scene Graph statistics

我们在本文引入了目前为止最大的场景图的数据集，我们使用这些图像的图表示作为视觉视觉的一个更深层的理解。本节我们分析了这些表示的属性并且在其他数据集上也做了类似的探索。
在以前的工作中，场景图的收集是靠让标注员写出一系列的描述一张图的3元组。但是我们收集的方法更加地细粒度：通过区域图。我们通过合并相同图片的不同区域图中指代相同物体的节点来得到场景图。
我们的每个图片都有5到100个区域图，平均有50个，每个图片只有一个场景图。需要主要的是区域描述的数目和区域图的数目不一定相等。比如“it is a sunny day”就没有物体，从而也就没有区域图。
物体、属性和关系在我们的数据中是一个正态分布。表4表明在一个区域图中，平均有0.71个物体，0.52个属性和0.43个关系，场景图中则分别是35、26和21。

5.7 Question Answering statistics

我们在VG的图片上收集了1773258个QA对，每个都有一个问题和一个与内容有关的答案，平均每个图片有17个QA对。不像之前的工作那样收集没有任何限制地收集QA对，VG的每个问题都是用6个W（what、where、when、who、why、how）开头的。当专注于6个W的问题时主要都两个好处。首先，他们提供了一个合理的问题类型的总数，从最基本的感知任务（比如识别物体和场景）到复杂的常识推理（比如推理人的动机和事件的因果关系）。其次，这些类别呈现了一种自然且连续的任务难度分层。比如why问题就需要比较复杂的推理，这也导致了最差的性能（3.4%的top-100准确度，而次差的为9.6%的top-100准确度）。这让我们能更好地理解现在计算机视觉模型的优势和弱点，也为未来的发展方向指明了一些方向。
我们现在分析问答对的多样性和质量。我们的目标是构建一个覆盖多种问题类型的大规模的VQA（视觉问答）数据集，包括从基础的认知任务到复杂的推理任务。我们通过检查图29中的问题和答案的分布来阐明我们的QA对的丰富性和多样性。
Visual Genome视觉基因组(3)

Question type distributions：问题根据他们的6个问词分为6类。在每个类别中，第二个和接下来的单词会将问题进一步的细粒度化。受VQA启发，我们在图30中通过问题提的前3个单词展示了问题的分布。我们看到what是最多的，我们的问题分布和VQA的一个显著的区别但是我们关注于确保6类问题都足够，，而VQA中38.37%的问题是yes/no问题。结果就是得到一个只能在预测yes/no问题答案上表现还可以的简单模型，我们不考虑yes/no问题，而是鼓励更多的难的问题。
Visual Genome视觉基因组(3)
Qestions and answer length distributions:我们也分析了6类问题中的问题和答案的长度。图31展示了每种类型的问题和答案的平均长度，总的来说，问题和答案的平均长度分别为5.7和1.8。相较而言，VQA数据集中89.32%,6.91%和2.74%的答案只有一个、两个和三个单词，而我们的问题则呈现出一种长尾分布，57.3%、18.1%、15.7%的问题有一个、两个和三个单词。我们通过指导工作者尽可能精确地写出问题来避免冗余。长的问题的覆盖范围意味着许多问题包含了一个有许多细节（而不仅仅是有一个物体或者属性）的短描述。这说明VG里面的VQA任务有超过object-centric的识别任务的丰富性和复杂性。

5.8 Canonicalization statistics

为了减少我们数据集上概念的模糊性并且将其与别的数据集关联起来，我们对VG中的所有物体、属性和关系的语义意思进行了规范化。我们用了canonicalization这个词，指通过将我们数据集中的元素映射到WordNet中对应的同义词集的单词层面的消歧（word sense disambiguation，WSD）。这个映射可以减少概念中的噪声并且有利于VG和其它建立在WordNet的实体论上的数据集（如ImageNet）。
图32就是VG中一个规范化的例子。比如horse被规范化为horse.n.01:solid-hoofed herbivorous quadruped domesticated since prehistoric times。属性clydesdale责备规范化为clydesdale.n.01:heavy feathered-legged breed of draft horse originally from Scotland。此外我们也展示了一个QA的例子。
Related work：规范化在许多应用中都被使用过，包括机器翻译、信息检索和信息提取。在英文句子中，比如“He scored a goal”和“It was his goal in life”中的goal的意思完全不一样。理解这些区别对应正确的翻译和索引都是很关键的。类似的，在VG中我们确保了所有的单词都被规范化了，从而可以理解不同的物体是怎么关联的，比如person是man和woman的上位词。大多数过去的规范化模型都是使用precision、recall和F1分数在Semeval数据集上进行评测。目前Semeval上state-of-the-art的结果是75.8%的F1分数。因为我们的词库是open的并且没有用于评测的ground truth，因此我们的规范化不能直接和现有的方法进行比较。但我们仍然在接下来要提出的一个测试集上实现了类似的state-of-the-art的结果。
Visual Genome视觉基因组(3)
Region descriptions and QAs：我们规范化在区域描述和QA对中出现的所有物体。首先我们用Stanford NLP工具对每个区域描述和QA进行了名词短语的提取，达到了99%的召回率。在得到名词短语后，我们将每个都映射到它频率最大（由WordNet的词位统计得到）的对应的同义词集。最后会得到88%的映射准确度和98.5%的召回率。最常见的由区域描述、QA和物体提取的同义词集在图33中展示了。
Visual Genome视觉基因组(3)
Attributes：我们也会对属性进行规范化，“属性”这个名称包含了许多语法部分。因为part-of-speech标记依赖于高层次的句法信息，因此在我们场景图里这种disjoint的元素之中就无法使用，因此我们根据词法（morphology）来进行规范化。然后，和物体一样，我们会将属性映射到WordNet中最频繁的那个同义词集。我们设计了15个规则来处理一些错误的情况，因为有事WordNet中最频繁的那些更侧重于单词的抽象含义而不是视觉上的空间意思。比如short.a.01:limited in duration 就比short.a.02:lacking in length更频繁。为了验证，我们随机地采样了200个属性，人工地进行映射来产生ground truth，并将其和我们算法产生的映射结果相比，达到了95.9%的召回率和85.7%的准确度。最常见的属性同义词集在图34(a)中展示了。
Visual Genome视觉基因组(3)
Relationships:和属性一样，我们也对关系进行规范化。我们排除了介词，WordNet中没有，于是剩下的主要是有动词关系组成的集合。由于动词的含义和他们的词法以及句法的位置（如被动语态和介词短语）很相关，因此我们将每个关系的结构都映射到一个合适的WordNet句子框架，并且只考虑那些匹配句子框架的同义词集。对于每个动词-同义词集对，我们考虑该同义词集的根上位词以减少来自WordNet的细粒度含义带来的干扰。我们也手动设计了20个规则来处理一些错误的情况。比如，hold.v.02:have or hold in one’s hand or grisp在WordNet中就没有hold.v.01:cause to continue in a certain state出现的频繁，但是VG中基本应该是hold.v.02。为了验证，我们再次随机采样200个关系并且将算法的映射结果和ground truth对比，结果是88.5%的召回率和92.9%的准确度。而许多数据集，比如VerbNet和FrameNet，是通过一些语义的限制或者框架来提高性能，但是并对于这些限制或者框架的映射并没有一个全面的方法。最常见的关系同义词集在图34(b)中展示了。

Visual Genome视觉基因组(3)