近期参加了百度飞桨的零基础入门强化学习课程，经过7天的教学+实践的方式入门学习强化学习，从完成小项目的形式加深对强化学习一些概念和算法的理解和消化。在课程的最后，对整个课程做个简单的知识总结。

强化学习(RL)

概念

强化学习（Reinforcement Learning），是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
学习总结——强化学习入门

学习方案

强化学习有两种学习方案：基于价值(value-based)、基于策略(policy-based)
学习总结——强化学习入门
经典算法：Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO
环境分类：离散控制场景（输出动作可数）、连续控制场景（输出动作值不可数）

学习框架

PARL(paddlepaddle Reinfocement Learning)是百度推出的基于PaddlePaddle(飞桨）的深度强化学习框架，具有可复用性强、扩展性好、支持大规模并行计算等优点。百度凭借PARL连续两年（2018、2019）在人工智能顶会NeurIPS的强化学习挑战赛上夺魁，足见其性能的强大。(附PARL的github链接)

基于表格型方法求解RL

Sarsa

Sarsa全称是state-action-reward-state’-action’（state’-action’分别表示下一个状态和行动），目的是学习特定的state下，特定action的价值Q，最终建立和优化一个Q表格，以state为行，action为列，根据与环境交互得到的reward来更新Q表格，更新公式为：
学习总结——强化学习入门

Q-learning

Q-learning也是采用Q表格的方式存储Q值（状态动作价值），决策部分与Sarsa是一样的，采用ε-greedy方式增加探索。
Q-learning跟Sarsa不一样的地方是更新Q表格的方式。
Q-learning的更新公式为：
学习总结——强化学习入门

区别对比

Sarsa是on-policy的更新方式，先做出动作再更新。
Q-learning是off-policy的更新方式，更新learn()时无需获取下一步实际做出的动作next_action，并假设下一步动作是取最大Q值的动作。
学习总结——强化学习入门
On-policy策略：使用策略π学习，使用策略π与环境交互产生经验。(比喻：保守派)
Off-policy策略：行为策略μ和目标策略π分离，目标策略π用于学习最优策略，行为策略μ更具有探险性，与环境交互产生经验轨迹。(比喻：激进派)

基于神经网络方法求解RL

表格型方法存储的状态数量有限，而面对其他如围棋或机器人控制这类有数不清的状态和环境时，表格型方法在存储和查找效率上都受局限，为解决这一局限，利用神经网络来近似替代Q表格，下面以DQN算法为例做介绍。

DQN算法

DQN算法本质上还是一个Q-learning算法，更新方式一致，其使用神经网络的方法来替代Q表格输出。
DQN算法的两个创新点（使得Q网络的更新迭代更稳定）：
经验回放（Experience Replay）：主要解决样本关联性和利用效率的问题。使用一个经验池存储多条经验s,a,r,s’，再从中随机抽取一批数据送去训练。（战士去攻打城堡积累经验存储起来，军师根据经验选择战术更好地指导战士去攻打城堡）
学习总结——强化学习入门
固定Q目标（Fixed-Q-Target）：主要解决算法训练不稳定的问题。复制一个和原来Q网络结构一样的Target Q网络，用于计算Q目标值。（兔子活动性大，所以需要定期固定兔子作为没用活动性的靶子，然后以靶子为射击目标）
学习总结——强化学习入门

算法流程

学习总结——强化学习入门

基于策略梯度方法求解RL

前面讲到强化学习中有两种学习方案，前面几种都是基于值得方法，而这次是基于策略的方法，本节以Policy Gradient为例介绍基于策略方法去求解RL问题。

Policy Gradient 算法

Policy Gradient 算法是基于策略方法的经典代表，不同于基于值方法，它采用神经网络拟合策略函数，网络输出不是值，而是直接输出action的选择情况。
Policy Gradient优化的目标是在策略π(s,a)的期望回报：所有的轨迹获得的回报R与对应的轨迹发生概率p的加权和，当N足够大时，可通过采样N个Episode求平均的方式近似表达。
学习总结——强化学习入门
优化策略网络需要计算策略梯度，优化目标对参数θ求导后得到策略梯度：

REINFORCE算法

注：1、G为每条state未来的总收益（由state计算得到）
2、算法中的梯度为每个action的梯度（由Loss和action计算）
学习总结——强化学习入门

连续动作空间上求解RL

本节介绍DDPG算法，以该算法为例介绍再连续动作空间上求解RL。

DDPG算法

DDPG的提出动机其实是为了让DQN可以扩展到连续的动作空间。
DDPG使用策略网络直接输出确定性动作。（离散动作输出为离散的数值，连续动作输出为连续的矢量值）
学习总结——强化学习入门
DDPG使用了Actor-Critic的架构（演员-评论家）：
Actor网络（演员）：演员根据舞台状况（state）作出反应（action）
Critic网络（评论家）：评论家根据演员的表演（action）和舞台反应（state/reward）为演员打分
Actor网络优化：根据评论家的打分情况更新网络参数θ（争取下次更好的表现）
Critic网络优化：根据舞台观众的掌声（reward）调整打分的策略更新网络参数w（每一场能获得更多的掌声）
学习总结——强化学习入门

优化网络

DPG借鉴了DQN的两个技巧：经验回放和固定Q网络（稳定target）。
学习总结——强化学习入门

课后实战

环境描述

利用强化学习实现Paddle接球小游戏（附github链接）

动作空间（3）：

动作	描述
0	桨向左移动
1	原地不动
2	桨向右移动

状态空间（5）：
/桨的水平位置x/
/球的位置x和y/
/球在x和y方向上的速度/

奖励方式：

奖励	行为描述
+3	桨成功接到球
-3	桨未接到球
-0.1	桨的每一次移动

效果展示

利用强化学习让桨有根据小球的位置拥有自动接球的能力。
ps：做下简单的实践尝试，本人能力不足，最后成绩不是很理想，各位见笑了。
下图是小球训练过程的效果图（）：
学习总结——强化学习入门