cvpr 2018 image caption generation论文导读(含workshop)

这是之前的一篇博客，关于图像描述(image caption)的一些看法，现在看来，当时的看法有正确的，也有很多地方有点浅薄，仅供交流，下面是2018cvpr关于这个方向的论文，看看大牛们都是怎么搞这个方向的。

当时说的第一点，评价现在的确有人用深度开始做了，用基于学习的方法做，不再制定规则。
第二点就有点浅薄了，问题还是有很多，比如多样性，比如各种角度的attention,比如开创一些新方向（增加风格—这种一般都和数据库有关）。对算法要求还是比较高的，这种玩法，目前个人经验还是不足，只能不断学习这些人。
第三个的话，视频的caption也是不断有人做的，本人没做过，暂时不发表意见。还有中文的，日文的caption。除了改变后面的语言，图片角度也有修改的，比如不做自然图像，做遥感图像，甚至医学图像（本人没见过，但觉得可以）

搜索链接(基本的知识搜索能力我觉得还是必要学习的，拒绝伸手党。)

Image Caption Generation with Hierarchical Contextual Visual Spatial Attention

这个是workshop研讨的一篇论文，虽然没有中正刊，但是工作量的确是有的。
主要是提出一种基于上下文的注意力机制的网络。使用了双向的网格LSTM,用特征图作为输入，然后可以学习复杂的空间模式。论文中说这是第一次将网格LSTM用到caption的任务中。另外一个是使用了基于region的caption任务的模型，进行迁移学习（我个人理解，这里其实就是相当于使用了额外数据库的信息作为真是的标注）。最后关于caption的产生，作者提出了一个双层的双向LSTM。解释是：第一层是用来建模场景的上下文。第二层利用基于网格lstm的注意力机制来产生句子。文中说，相比于soft attention,这里提出的注意力机制考虑了图片region之间的上下文。最后当然是，实验证明我们方法最好。
看一下流程图
cvpr 2018 image caption generation论文导读(含workshop)
这里的图很草率，感觉是赶cvpr出来的东西。基于region的意思就是图里的小框框。网格的LSTM是别人的一个工作。因为有region信息，所以attention更好是有可能的。

GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

这是来自厦门大学MAC课题组的一篇论文（18年有四篇cvpr，一篇pami）。
目前大部分的图像描述模型都是集中在一张图像上，也就是一次给一张图像做字幕生成。忽略了相似图像之间的差异，导致最后差异性不够高，准确率也会下降。目前考虑这种差异性都是瞄准生成句子的部分，但是忽略了在训练的时候的视觉结构的关系（这句不是特别明白，个人理解应该就是相似图像之间的差异）。本文就提出了一种基于group的caption框架，同时建模图像群之间的相关性和多样性来生成一个最有的联合caption。首先，提出了一个VP-树来建模每张图当中的语义结构关系。然后，在VP-树的基础上，来探究图片的相关性和多样性。最后，利用这种相关性最后约束最后知道图像描述的生成。论文采用end-to-end的方式联合优化VP-树的解析器，结构相关性和多样性约束，还有最终的描述生成模型。为了定量评价，作者基于MSCOCO,提出了两个group的数据集.最后当然是，实验证明我们方法最好。
流程图：
cvpr 2018 image caption generation论文导读(含workshop)
利用这种树的结构是一种很厉害的想法，类似一种手动的多样性attention。

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

这个一看名字就知道做了什么，两个方向的attention,两个任务。简单来说，就是基于目标检测（faster r-cnn）确定相对应得图像特征（这是自下而上），然后利用普遍的attention（自上而下）来确定不同区域的权重。我觉得可能真是因为这种简单有效，所以提供了两个不同的任务的实验结果，分别的是图像描述和视觉问答。最后当然是，实验证明我们方法最好。
流程图：
cvpr 2018 image caption generation论文导读(含workshop)

Learning to Evaluate Image Captioning

这篇是做评价指标的。这其实一直是图像描述方向一个受人诟病的问题，因为这是一个比较主观的任务，如何评价生成句子的好坏，一直是一个问题，这篇文章开始就说，之前的评价指标和人类的不吻合，SPICE能够和人类的吻合，但是句法结构又可能出问题。为了解决这个问题，作者提出训练一个网络来进行判断句子的好坏。其实就说做了一个分类任务，准确打分的话，是回归任务。就是让一个分类器来判别数据库当中的句子和机器生成句子的好快，并提出了一种数据增强的方法（还没细看）。最后当然是，实验证明我们方法最好。
流程图： cvpr 2018 image caption generation论文导读(含workshop)

SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text

这个是上海科技大学何旭明老师组的工作，18年英国是两篇CVPR。这篇工作就是说之前的caption有做语言风格的，也有做提高精度的。这里提出一个网络，分离了语义和风格。想法很有意思，关键是怎么做。论文当中的大框架没啥，就是两组gru单元，一个用来捕捉语义，一个用来捕捉风格。第一个语义，利用了很多自然语言处理里面的工具，提名词，动词以及各种操作，然后风格这一个GRU是基于一本小说训练的，当然也是有一波预处理，这种预处理，我觉得这篇文章相对讲的还是比较详细的，代码说是会公布，暂时还没有。总之也是和提出数据库有一部分的关系。另一个点就是说的无监督，不需要图像和文本配对，因为他这里分开了，也就不存在配对的问题了，但是思路还是很厉害的。
流程图：
cvpr 2018 image caption generation论文导读(含workshop)

Convolutional Image Captioning

图像描述是一个重要的任务，可以用于虚拟助手，编辑工具，图像检索和残疾人辅助。RNN的引入，尤其是LSTM，使得这方面发展很快。尽管减轻了梯度消失的问题，尽管长时依赖性的特征，LSTM本身很复杂，在时间维度的依赖性太强。为了解决这个问题，在机器翻译和条件图像生成领域，利用卷积网络可以缓解上述问题。这个文章就是基于此，提出一种卷积的图像描述框架。最后当然是，实验证明我们方法最好。除此之外，作者还给出了一定的解释。
流程图：

cvpr 2018 image caption generation论文导读(含workshop)

这个工作我觉得是除了评价之外很有意思的一个工作。借鉴了RNN的整体结构，但是却用CNN来实现。算是在方法上改进比较大的caption方法。

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

近年来，基于encoder-decoder框架的caption方法，火的一批。在很多领域都有用，比如图片和代码的caption等。本文提出了一种新的框架，ARNet，耦合了传统的编码解码器，end-to-end的进行训练。重点就是当前隐层和之前的隐层之间进行重构，是一个和输入相关的变换方式。可以更好的保持之前的信息，帮助正则化RNN（这里没有特别懂）。最后当然是，实验证明我们方法最好。
最后贴出我FORK的代码链接

流程图：
cvpr 2018 image caption generation论文导读(含workshop)

正则化的RNN。有没有很厉害，解释起来的确很厉害，但是方法很简单，就是在RNN的每一次重构当前隐层和上一个隐层。

Discriminability objective for training descriptive captions

图像caption中现在存在一个问题：给出描述图像的一个句子，能够区分出两张相似的图。这里的方法是加入了一个判别性的损失。这个损失并不是作者首次提出，而是在图文检索里面的一个损失，利用这个损失，融入增强学习的方式来优化整个网络。最后当然是，实验证明我们方法最好。

这个没有流程图，主要就是解释了一下任务，文中是长篇的文字。。。。
cvpr 2018 image caption generation论文导读(含workshop)
这个是做判别性的，相似的图，如何生成准确，能捕捉差异的句子。

cvpr 2018 image caption generation论文导读(含workshop)

相关推荐