阅读小结:NIC模型
阅读小结:Show and Tell: A Neural Image Caption Generator
立了人生第二个flag,每周论文,一周至少一篇阅读小结。
人与人的根本区别在于自律能力。
论文阅读遵循彭明辉教授的指导。研一的主要论文阅读目的为解决问题(2A)(2B),即在这个领域最常被引述的方法有哪些?这些方法可以分成哪几个主要派别?
作者:O. Vinyals, A. Toshev, S. Bengio and D. Erhan
题目:Show and tell: A neural image caption generator
出处:2015,CVPR
What:
1、提出一个生成模型,这个模型可以生成描述图片的自然语句。
2、图片(image)输入CNN,输出再输入生成语言网络RNN,最后得到一个完整的图片描述语句。
3、LSTM
LSTM在时刻有两个输入:①当前输入;②反馈回的。
在时刻的输出通过三个门反馈给网络。
4、MODEL
该模型包括encoder-decoder两个部分。其中encoder使用CNN提取特征,CNN可以使用VGGNet、GoogleNet等网络;decoder使用LSTM网络生成句子。
decoder(如图)第一步,输入为经过卷积神经网络提取的图像特征;其后的输入为每个单词的向量表达。对于每个单词首先通过one-hot向量表示,在通过词嵌入模型,变成和图像特征相同维度的向量。
【p.s.】词嵌入模型是NLP中语言模型与表征学习技术的统称。概念上它是指把一个维度为所有词的数量的高维空间,嵌入到一个维数低很多的连续向量空间,每个单词或词组被映射为实数域上的向量。
How:
1、BLEU-1、BLEU-4、METEOR、CIDE有很高。
改进之后的NICv2指标更高
end