cvpr 2018 image caption generation论文导读(含workshop)

这是之前的一篇博客,关于图像描述(image caption)的一些看法,现在看来,当时的看法有正确的,也有很多地方有点浅薄,仅供交流,下面是2018cvpr关于这个方向的论文,看看大牛们都是怎么搞这个方向的。

当时说的第一点,评价现在的确有人用深度开始做了,用基于学习的方法做,不再制定规则。
第二点就有点浅薄了,问题还是有很多,比如多样性,比如各种角度的attention,比如开创一些新方向(增加风格—这种一般都和数据库有关)。对算法要求还是比较高的,这种玩法,目前个人经验还是不足,只能不断学习这些人。
第三个的话,视频的caption也是不断有人做的,本人没做过,暂时不发表意见。还有中文的,日文的caption。除了改变后面的语言,图片角度也有修改的,比如不做自然图像,做遥感图像,甚至医学图像(本人没见过,但觉得可以)

搜索链接(基本的知识搜索能力我觉得还是必要学习的,拒绝伸手党。)

Image Caption Generation with Hierarchical Contextual Visual Spatial Attention

这个是workshop研讨的一篇论文,虽然没有中正刊,但是工作量的确是有的。
主要是提出一种基于上下文的注意力机制的网络。使用了双向的网格LSTM,用特征图作为输入,然后可以学习复杂的空间模式。论文中说这是第一次将网格LSTM用到caption的任务中。另外一个是使用了基于region的caption任务的模型,进行迁移学习(我个人理解,这里其实就是相当于使用了额外数据库的信息作为真是的标注)。最后关于caption的产生,作者提出了一个双层的双向LSTM。解释是:第一层是用来建模场景的上下文。第二层利用基于网格lstm的注意力机制来产生句子。文中说,相比于soft attention,这里提出的注意力机制考虑了图片region之间的上下文。最后当然是,实验证明我们方法最好。
看一下流程图
cvpr 2018 image caption generation论文导读(含workshop)
这里的图很草率,感觉是赶cvpr出来的东西。基于region的意思就是图里的小框框。网格的LSTM是别人的一个工作。因为有region信息,所以attention更好是有可能的。

GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

这是来自厦门大学MAC课题组的一篇论文(18年有四篇cvpr,一篇pami)。
目前大部分的图像描述模型都是集中在一张图像上,也就是一次给一张图像做字幕生成。忽略了相似图像之间的差异,导致最后差异性不够高,准确率也会下降。目前考虑这种差异性都是瞄准生成句子的部分,但是忽略了在训练的时候的视觉结构的关系(这句不是特别明白,个人理解应该就是相似图像之间的差异)。本文就提出了一种基于group的caption框架,同时建模图像群之间的相关性和多样性来生成一个最有的联合caption。首先,提出了一个VP-树来建模每张图当中的语义结构关系。然后,在VP-树的基础上,来探究图片的相关性和多样性。最后,利用这种相关性最后约束最后知道图像描述的生成。论文采用end-to-end的方式联合优化VP-树的解析器,结构相关性和多样性约束,还有最终的描述生成模型。为了定量评价,作者基于MSCOCO,提出了两个group的数据集.最后当然是,实验证明我们方法最好。
流程图:
cvpr 2018 image caption generation论文导读(含workshop)
利用这种树的结构是一种很厉害的想法,类似一种手动的多样性attention。

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

这个一看名字就知道做了什么,两个方向的attention,两个任务。简单来说,就是基于目标检测(faster r-cnn)确定相对应得图像特征(这是自下而上),然后利用普遍的attention(自上而下)来确定不同区域的权重。我觉得可能真是因为这种简单有效,所以提供了两个不同的任务的实验结果,分别的是图像描述和视觉问答。最后当然是,实验证明我们方法最好。
流程图:
cvpr 2018 image caption generation论文导读(含workshop)

Learning to Evaluate Image Captioning

这篇是做评价指标的。这其实一直是图像描述方向一个受人诟病的问题,因为这是一个比较主观的任务,如何评价生成句子的好坏,一直是一个问题,这篇文章开始就说,之前的评价指标和人类的不吻合,SPICE能够和人类的吻合,但是句法结构又可能出问题。为了解决这个问题,作者提出训练一个网络来进行判断句子的好坏。其实就说做了一个分类任务,准确打分的话,是回归任务。就是让一个分类器来判别数据库当中的句子和机器生成句子的好快,并提出了一种数据增强的方法(还没细看)。最后当然是,实验证明我们方法最好。
流程图:cvpr 2018 image caption generation论文导读(含workshop)

SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text

这个是上海科技大学何旭明老师组的工作,18年英国是两篇CVPR。这篇工作就是说之前的caption有做语言风格的,也有做提高精度的。这里提出一个网络,分离了语义和风格。想法很有意思,关键是怎么做。论文当中的大框架没啥,就是两组gru单元,一个用来捕捉语义,一个用来捕捉风格。第一个语义,利用了很多自然语言处理里面的工具,提名词,动词以及各种操作,然后风格这一个GRU是基于一本小说训练的,当然也是有一波预处理,这种预处理,我觉得这篇文章相对讲的还是比较详细的,代码说是会公布,暂时还没有。总之也是和提出数据库有一部分的关系。另一个点就是说的无监督,不需要图像和文本配对,因为他这里分开了,也就不存在配对的问题了,但是思路还是很厉害的。
流程图:
cvpr 2018 image caption generation论文导读(含workshop)

Convolutional Image Captioning

图像描述是一个重要的任务,可以用于虚拟助手,编辑工具,图像检索和残疾人辅助。RNN的引入,尤其是LSTM,使得这方面发展很快。尽管减轻了梯度消失的问题,尽管长时依赖性的特征,LSTM本身很复杂,在时间维度的依赖性太强。为了解决这个问题,在机器翻译和条件图像生成领域,利用卷积网络可以缓解上述问题。这个文章就是基于此,提出一种卷积的图像描述框架。最后当然是,实验证明我们方法最好。除此之外,作者还给出了一定的解释。
流程图:

cvpr 2018 image caption generation论文导读(含workshop)

这个工作我觉得是除了评价之外很有意思的一个工作。借鉴了RNN的整体结构,但是却用CNN来实现。算是在方法上改进比较大的caption方法。

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

近年来,基于encoder-decoder框架的caption方法,火的一批。在很多领域都有用,比如图片和代码的caption等。本文提出了一种新的框架,ARNet,耦合了传统的编码解码器,end-to-end的进行训练。重点就是当前隐层和之前的隐层之间进行重构,是一个和输入相关的变换方式。可以更好的保持之前的信息,帮助正则化RNN(这里没有特别懂)。最后当然是,实验证明我们方法最好。
最后贴出我FORK的代码链接

流程图:
cvpr 2018 image caption generation论文导读(含workshop)

正则化的RNN。有没有很厉害,解释起来的确很厉害,但是方法很简单,就是在RNN的每一次重构当前隐层和上一个隐层。

Discriminability objective for training descriptive captions

图像caption中现在存在一个问题:给出描述图像的一个句子,能够区分出两张相似的图。这里的方法是加入了一个判别性的损失。这个损失并不是作者首次提出,而是在图文检索里面的一个损失,利用这个损失,融入增强学习的方式来优化整个网络。最后当然是,实验证明我们方法最好。

这个没有流程图,主要就是解释了一下任务,文中是长篇的文字。。。。
cvpr 2018 image caption generation论文导读(含workshop)
这个是做判别性的,相似的图,如何生成准确,能捕捉差异的句子。