[caption学习]：综述：A comprehensive survey of deep learning for image caption

A Comprehensive survey of Deep Learning for image Caption

INTRODUCTION

作者通过归纳不同的方面，将目前主流的caption方法归类为以下几种：（在section 2里面详细说明）
- 基于模板的caption（Template -based ）
- 基于检索的caption（Retrieval-based）
- Novel imag caption generation（大多数基于深度学习的归类于此）
其次作者又再次将基于深度学习的方法归类为以下几种：（在section 3中详细说明）
- (1) Visual space-based,
- (2) Multimoda space-based,
- (3) Supervised learning,
- (4) Other deep learning,
- (5) Dense captioning,
- (6) Whole scene-based,
- (7) Encoder-Decoder Architecture-based,
- (8) Compositional Architecture-based,
- (9) LSTM(Long Short-Term Memory) [54] language model-based,
- (10) Others language model-based,
- (11)Attention-Based,
- (12) Semantic concept-based,
- (13) Stylized captions
作者对目前主流的数据集进行了整理和总结。（参见section4）
作者对目前的主要方法的result进行了对比和分析。（参见section5）
作者在section 6 部分进行了简短的讨论并对未来研究进行了展望。
在section 7 部分进行了总结。

IMAGE CAPTIONING METHODS

这部分作者简要回顾和描述目前存在的catption方法，具体包括template -based image caption、retrieval-based image caption and novel caption generation。

Template-based image caption:
- 模板类方法指的是采用一系列模板插槽（black slot）的方式对图像进行描述，主要思路是先检测对象，然后填充描述语句模板；
- 很明显这种方法无法生成可变长度的描述，部分方法[2，32，76，77，101]在图像字幕中引入了基于解析的语言模型，它们比基于固定模板的方法更强大。但是这种方法并非本文关注的重点（听起来就不很靠谱）。
Retrieval-based image caption:
- 基于检索的方法指的是在库里有一批生成好的图像和其描述。当对新的图像进行描述时，通过图像相似性计算在库中检索出类似的images，然后将这些图像的描述作为候选描述，再用一定的方法从这些候选池中选择恰当的描述。这些方法一般能产生通用和语法正确描述，但是对于特异性较强的图片则很难生成恰当的描述。（并且严重以来检索库）
Novel caption generation：
- Novel caption generation一般通过两个层面共同生成图像描述，一个是在视觉空间分析图像内容，另外一个是在基于语言模型的多模态空间基于图像内容生成图像描述。绝大多数这类方法均基于深度学习技术。这部分也是本文的重点。
- An overall taxonomy of deep learning-based image captioning.：
- 上图列举了不同类别的方法，其中：
  - 监督学习和其他深度学习（强化学习和无监督学习）
  - 整个场景描述和不同区域描述（密集字幕）
  - 编解码体系结构和组成体系结构
  - 基于视觉空间和基于多模态空间的
  - 基于LSTM（包含RNN等语言模型）和其他
  - 其他：
    - 基于注意力机制
    - 基于语义概念
    - Novel Object based
    - 风格化描述

DEEP LEARNING BASED IMAGE CAPTIONING METHODS

在上图1中，对caption 的方法进行的简要的对比和归类，接下来会对每一类别进行展开说明。此外做了一张表对目前比较主流的方法进行了简要的概括，包括方法名称、图像编码方式、语言模型以及在本文中的类别。具体参见下表：

[caption学习]：综述：A comprehensive survey of deep learning for image caption

3.1 Visual Space vs. Multimodal Space

TODO

[caption学习]：综述：A comprehensive survey of deep learning for image caption

A Comprehensive survey of Deep Learning for image Caption

INTRODUCTION

IMAGE CAPTIONING METHODS

DEEP LEARNING BASED IMAGE CAPTIONING METHODS

3.1 Visual Space vs. Multimodal Space

相关推荐