阅读小结：NIC模型

阅读小结：Show and Tell: A Neural Image Caption Generator

立了人生第二个flag，每周论文，一周至少一篇阅读小结。

人与人的根本区别在于自律能力。

论文阅读遵循彭明辉教授的指导。研一的主要论文阅读目的为解决问题（2A）（2B），即在这个领域最常被引述的方法有哪些？这些方法可以分成哪几个主要派别？
阅读小结：NIC模型
作者：O. Vinyals, A. Toshev, S. Bengio and D. Erhan
题目：Show and tell: A neural image caption generator
出处：2015，CVPR

What：

1、提出一个生成模型，这个模型可以生成描述图片的自然语句。

2、图片（image）输入CNN，输出再输入生成语言网络RNN，最后得到一个完整的图片描述语句。
阅读小结：NIC模型
3、LSTM
LSTM在 $t$ 时刻有两个输入：①当前输入 $x_{t}$ ；②反馈回的 $m_{t-1}$ 。
在 $t-1$ 时刻的输出 $m_{t-1}$ 通过三个门反馈给网络。

4、MODEL
该模型包括encoder-decoder两个部分。其中encoder使用CNN提取特征，CNN可以使用VGGNet、GoogleNet等网络；decoder使用LSTM网络生成句子。

decoder（如图）第一步，输入为经过卷积神经网络提取的图像特征；其后的输入为每个单词的向量表达。对于每个单词首先通过one-hot向量表示，在通过词嵌入模型，变成和图像特征相同维度的向量。
【p.s.】词嵌入模型是NLP中语言模型与表征学习技术的统称。概念上它是指把一个维度为所有词的数量的高维空间，嵌入到一个维数低很多的连续向量空间，每个单词或词组被映射为实数域上的向量。
阅读小结：NIC模型

How：
1、BLEU-1、BLEU-4、METEOR、CIDE有很高。
阅读小结：NIC模型
改进之后的NICv2指标更高

end

阅读小结：NIC模型

阅读小结：Show and Tell: A Neural Image Caption Generator

相关推荐