Facobook开源视觉问答VQA框架:Pythia

VQA Challenge 2018的冠军方案。

(欢迎关注“我爱计算机视觉”,一个有价值有深度的公众号~)

什么是视觉问答VQAVisual Question Answering)?

给定一幅图片及与图片相关的问题,系统通过理解图片回答这个问题,它涉及到图像识别和自然语言理解。

比如这些例子:

Facobook开源视觉问答VQA框架:Pythia

它是计算机视觉和自然语言处理问题的高级综合,好的VQA系统可以帮助盲人理解这个世界。

Pythia开源目的

Facebook AI Research的研究员们参加了VQA Challenge 2018,并获得了冠军,他们发现现今的很多VQA系统都有一些相同的功能模块,比如问题编码,图像特征提取,两者的融合(典型的使用attention模型),答案空间的分类等,他们将自己的获胜方案开源,期望它能成为VQA或相关方向比如视觉对话(visual dialog)领域易用和模块化的研究平台。

VQA Challenge 2018Leaderboard

Facobook开源视觉问答VQA框架:Pythia

Pythia(皮媞亚)是向Oracle of Apollo at Delphi的致敬,她在古希腊神话中传达旨意、回答问题。

Pythia架构与改进

Pythia主要参考了up-down模型[1],并在

Model Architecture

Learning Schedule

Fine-Tuning Bottom-Up Features

Data Augmentation

Post-Challenge Improvements

Model Ensembling做了改进。

下表展示了加上各种改进后系统在VQA v2.0数据库上的测试精度。

Facobook开源视觉问答VQA框架:Pythia

在模型集成上,集成差异化更大的不同的模型,获得的改进更大。

Facobook开源视觉问答VQA框架:Pythia

Facobook开源视觉问答VQA框架:PythiaFacobook开源视觉问答VQA框架:PythiaFacobook开源视觉问答VQA框架:PythiaFacobook开源视觉问答VQA框架:PythiaFacobook开源视觉问答VQA框架:PythiaFacobook开源视觉问答VQA框架:Pythia

项目主页:

https://github.com/facebookresearch/pythia

[1]P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018.

点击阅读原文可以在www.52cv.net查看本文。

欢迎转发,让更多人看到。

更多精彩推荐:

华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter

快准狠!Intel论文揭示自家车牌识别算法:LPRNet

北大开源ECCV2018深度去雨算法:RESCAN

终于!商汤科技开源DAVIS2017视频目标分割冠军代码