视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

一、文章相关资料

论文地址:点击打开链接

二、阅读笔记

1.论文思想

       针对序列图像生成故事描述的需求,使用层次结构的网络进行解码学习。高级网络用于学习序列中每幅图像的语义信息,所属主题;低级网络用于根据学到的主题与语义属性逐词逐句生成句子描述。

2.结构

(1)Manager-Worker 框架图

视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

       Manager:通过LSTM实现,这个网络以图像学习到的特征向量作为LSTM的输入。如同所有的LSTM网络一样,在每一时间步LSTM的输入由先前编码输出状态s和来自于worker网络的最后一个隐藏状态组成。

       Worker:通过语义组合网络(SCN)实现,这个网络通过上下文向量c和Manager阶段获得的topic(subgoal)g生成句子。

视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

      g为每一步LSTM生成的topic,ai,j为在某一主题下对某一图像生成的描述中的词。

3.增强学习干了啥?

      在描述生成中,使用最多的损失函数的计算依据为最大似然估计(MLE),但是本研究所针对的不仅仅是一张图像,而是通过一系列的图像生成一段故事描述,不仅需要描述每幅图像,更需要获得图像之间的关系,以此生成故事。

       因此,这将涉及长短时记忆问题,因此可以考虑使用LSTM或者增强学习来做,而在worker阶段使用的是SCN网络,所以使用增强学习的累积奖励可以用于模型学习。

       文中对学习策略进行讨论,并提出三种方案与实验结果。

     (1)级联训练;(2)迭代训练(wake-sleep模式);(3)联合训练

视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

3.描述效果

视觉场景理解论文阅读笔记2:Hierarchically Structured Reinforcement Learning for Topically Coherent Visual Story

注:本人因理解角度和学习方法的不同,对文章内容理解可能存在偏差,如有错误,请指出。