阅读小结:NIC模型

阅读小结:Show and Tell: A Neural Image Caption Generator

立了人生第二个flag,每周论文,一周至少一篇阅读小结。

人与人的根本区别在于自律能力。

论文阅读遵循彭明辉教授的指导。研一的主要论文阅读目的为解决问题(2A)(2B),即在这个领域最常被引述的方法有哪些?这些方法可以分成哪几个主要派别?
阅读小结:NIC模型
作者:O. Vinyals, A. Toshev, S. Bengio and D. Erhan
题目:Show and tell: A neural image caption generator
出处:2015,CVPR

What:

1、提出一个生成模型,这个模型可以生成描述图片的自然语句。

2、图片(image)输入CNN,输出再输入生成语言网络RNN,最后得到一个完整的图片描述语句。
阅读小结:NIC模型
3、LSTM
LSTM在tt时刻有两个输入:①当前输入xtx_{t};②反馈回的mt1m_{t-1}
t1t-1时刻的输出mt1m_{t-1}通过三个门反馈给网络。
阅读小结:NIC模型

4、MODEL
该模型包括encoder-decoder两个部分。其中encoder使用CNN提取特征,CNN可以使用VGGNet、GoogleNet等网络;decoder使用LSTM网络生成句子。

decoder(如图)第一步,输入为经过卷积神经网络提取的图像特征;其后的输入为每个单词的向量表达。对于每个单词首先通过one-hot向量表示,在通过词嵌入模型,变成和图像特征相同维度的向量。
【p.s.】词嵌入模型是NLP中语言模型与表征学习技术的统称。概念上它是指把一个维度为所有词的数量的高维空间,嵌入到一个维数低很多的连续向量空间,每个单词或词组被映射为实数域上的向量。
阅读小结:NIC模型

How:
1、BLEU-1、BLEU-4、METEOR、CIDE有很高。
阅读小结:NIC模型
改进之后的NICv2指标更高
阅读小结:NIC模型


end