论文笔记 Reinforcement Learning with Derivative-Free Exploration

摘要

高效的探索是sample-efficient强化学习的关键。目前最普遍常用的方法(如论文笔记 Reinforcement Learning with Derivative-Free Exploration-greedy)仍是低效率的,而无梯度优化(derivative-free optimization)发明了高效的方法来更好地全局搜索。本文介绍一种无梯度探索(DFE)作为一种早期强化学习的常用高效探索方法。DFE克服了基于纯无梯度优化的强化学习方法的优化低效和可扩展性差的缺点。本文实验通过在确定离线策略方法DDPG和随机离线策略方法ACER算法中使用用DFE来探索轨迹,并应用于高维离散动作环境Atari和连续控制环境Mujoco中,表明DFE是一种高效且普遍的探索方法。

 

介绍

本文提出了关于强化学习的DFE,它将探索问题当成一个额外的优化问题,并采用最先进的无梯度优化中的探索成分来提高强化学习效率。DFE只将无梯度优化应用于指引探索,而不用于直接学习。

优点1:在DFE中,无梯度优化通过将采样轨迹表现设置成探索策略的拟合值,以全局方式搜索高性能探索策略。因此可以避免基于梯度方法的探索局部性缺点。

优点2:通过优化目标策略,可以避免纯无梯度优化的优化低效缺点。优化目标策略是通过在那些探索轨迹上使用一种基于梯度的离线策略的策略梯度算法(例如,DDPG)实现的。

 

策略的无梯度学习

现在需要设计一个策略表示方法来学习一个探索策略。现在的无梯度方法优化通过调整网络参数来学习一个policy,虽然高效但会产生两个问题:1、调整参数的影响是无法预测的,有些参数对输出动作影响小而有些则很大;2、随着神经网络变复杂,寻找快速增加的参数会直接影响可扩展性。

本文提出的策略学习方法可以解决这些问题,方法叫做直接动作优化(Direct Action Optimization,DAO)。它是基于无梯度优化框架的改进,用来学习策略。策略可以用一个状态-动作对的集合论文笔记 Reinforcement Learning with Derivative-Free Exploration表示,通过有监督学习得到。损失函数为:

论文笔记 Reinforcement Learning with Derivative-Free Exploration

在DAO中,状态集合是从replay buffer中采样且固定下来,而每个状态对应的动作标签被当做参数来学习得到。通过调整这些动作标签,无梯度优化可以学习到一个策略。

在DFE框架中应用DAO有两点好处:1、因为动作与策略的表现更相关,所以它会有效地影响到神经网络;2、由于需要的状态动作对比需要的神经网络参数少,可以减少学习参数的维度,有利于可扩展性和优化的简化。

由于目标策略是由强化学习优化算法逐步得到的,所以更好的探索策略较难得到。故本文受ResNet启发,采用残差的方式构造探索策略。探索策略将目标策略作为基准策略,并加上另一个网络项论文笔记 Reinforcement Learning with Derivative-Free Exploration(由DAO优化)来偏移基准策略的输出(例如,为确定策略(deterministic policy)偏移基准策略的动作值,为softmax策略偏移权值)。作为一个偏移项,论文笔记 Reinforcement Learning with Derivative-Free Exploration构造一个更好的策略的网络复杂度降低了。本文将这种方法命名为策略合并技术(policy combination technique)。

 

无梯度探索

论文笔记 Reinforcement Learning with Derivative-Free Exploration

本文选择序列随机坐标收缩(sequential randomized coordinate shrinking,SRACOS)作为无梯度优化的实现,它是一种最先进的基于分类的无梯度优化方法。基于分类的方法通常学习到一个分类模型h。DFE实现如Figure 1所示。目标策略(target policy)和偏移网络(bias network)用来构造一个探索策略(exploration policy)。其中,目标策略由一个离线策略梯度算法优化得到,偏移网络由SRACOS模型生成。

SRACOS固定状态并从一个由分类判别器h生成的随机坐标收缩区域搜索相对应的动作。SRACOS模型需要各组动作标签的拟合值来更新h。拟合值是运行这些动作产生的探索策略的长期奖励平均。同时,目标策略和探索策略并行运行来获取轨迹。所有轨迹被分别存储于两个replay buffer中。一个离线策略梯度算法用这些轨迹优化目标策略。

 

实验

在连续控制任务(Mujoco)结合DFE与DDPG方法,在离散动作环境(Atari)结合DFE与ACER。DDPG是一个确定策略强化学习算法,ACER是一个随机策略强化学习算法。

论文笔记 Reinforcement Learning with Derivative-Free Exploration


  1. Xiong-Hui Chen and Yang Yu. 2019. Reinforcement Learning with Derivative-Free Exploration. In Proceedings of the 18th International Conference on Autonomous Agents and MultiAgent Systems (AAMAS ’19). International Foundation for Autonomous Agents and Multiagent Systems, Richland, SC, 1880–1882.