视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

一、文章相关资料

二、阅读笔记

1.论文思想

针对序列图像生成故事描述的需求，使用层次结构的网络进行解码学习。高级网络用于学习序列中每幅图像的语义信息，所属主题；低级网络用于根据学到的主题与语义属性逐词逐句生成句子描述。

2.结构

（1）Manager-Worker 框架图

视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

Manager：通过LSTM实现，这个网络以图像学习到的特征向量作为LSTM的输入。如同所有的LSTM网络一样，在每一时间步LSTM的输入由先前编码输出状态s和来自于worker网络的最后一个隐藏状态组成。

Worker：通过语义组合网络（SCN）实现，这个网络通过上下文向量c和Manager阶段获得的topic（subgoal）g生成句子。

视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

g为每一步LSTM生成的topic，ai,j为在某一主题下对某一图像生成的描述中的词。

3.增强学习干了啥？

在描述生成中，使用最多的损失函数的计算依据为最大似然估计（MLE），但是本研究所针对的不仅仅是一张图像，而是通过一系列的图像生成一段故事描述，不仅需要描述每幅图像，更需要获得图像之间的关系，以此生成故事。

因此，这将涉及长短时记忆问题，因此可以考虑使用LSTM或者增强学习来做，而在worker阶段使用的是SCN网络，所以使用增强学习的累积奖励可以用于模型学习。

文中对学习策略进行讨论，并提出三种方案与实验结果。

（1）级联训练；（2）迭代训练（wake-sleep模式）；（3）联合训练

视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

3.描述效果

视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

注：本人因理解角度和学习方法的不同，对文章内容理解可能存在偏差，如有错误，请指出。