论文笔记2：Deep Attention Recurrent Q-Network

参考文献：[1512.01693] Deep Attention Recurrent Q-Network （本篇DARQN）

[1507.06527v3] Deep Recurrent Q-Learning for Partially Observable MDPs（DRQN,可参见我上一篇笔记）

目前网上我搜到的论文笔记参考：论文笔记之：Deep Attention Recurrent Q-Network

创新点：将DQN（其实是更进一步的DRQN）与attention mechanism（注意力机制）结合

改进：基于DRQN，在CNN与LSTM之间加入了attention network（注意力网络）（作者也说这里其实可以看做LSTM额外增加了一个过滤门）

改进原因：

1、DQN在需要4帧以上的图像时效果不好，并且DRQN没有太大的系统上的性能提升。

2、DQN训练时间长，参数太多

带来益处：

1、可以通过高亮可视化agent正在关注的图像区域。

2、虽然没有在所有游戏上性能表现好，但是参数变少，实现加快训练速度。（emmm个人感觉还是没有在系统上效果提升）

Abstract

DRQN引入attention机制提出DARQN，建立的内置attention机制可以通过高亮显示agent正在关注的游戏屏幕区域，实现在线监测训练过程。

Introduction

提出改进原因：（前面写了，为完整性copy一下）

1、DQN在需要4帧以上的图像时效果不好，并且DRQN没有太大的系统上的性能提升。

2、DQN训练时间长，参数太多

虽然在训练时间问题上，前人提出了一种并行算法来提升训练速度，但作者认为并不是最有效的，而近年来visual attention model在标题生成，对象跟踪，机器翻译等领域取得进展，引发作者想要将这个attention machinism加入到DRQN中，主要的优点：注意到agent关注的输入图像中的相关的较小的信息区域，帮助减少整个结构的参数。

对比于DRQN其不同在于LSTM层不仅将数据用于为下个动作做出决策，也用于选出下一个注意的区域