您的位置: 首页 > 文章 > 【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

分类: 文章 • 2024-01-06 21:32:04

一、学习内容

4.基于策略梯度求解RL

4.1随机策略与策略梯度

先来复习一下之前讲的value-based和policy-based的RL方法：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

Policy-based的方法可直接输出动作的概率，比较适用于随机性策略

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

具体来说就是在网络里面使用常见的softmax函数

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

为了方便大家理解，这里举个Pong游戏的例子：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

策略是一个episode完了才能评估的，目的是为了让总的Reward尽可能大：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

策略的状态转移轨迹可以用以下流程来表示：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

轨迹发生的概率和策略的期望回报的关系如下：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

对比一下DQN和PolicyGradient里面的优化过程：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

策略梯度法在优化过程中，会选择loss最小的那一条轨迹

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

4.2PolicyGradient（策略梯度）算法

区别于DQN中的TD单步更新，经典的PG里面用的是蒙特卡洛回合（episode）制更新：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

具体到代码就是从后向前计算所有reward的和。这里特别提醒下，sarsa中，reward是下一时刻的reward，和后面的sa是下标一样的。

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

从算法流程来看，刚才reward折算的过程就是倒数第二行：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

类比监督学习来理解PolicyGradient，上面是MNIST的监督学习网络，下面是PolicyGradient中监督的过程（可以看到，多乘了一项rewardG_t作为监督项）：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

具体Loss的代码定义如***意-R后面少了个左括号）：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

4.3PG代码

PolicyGradient的REINFORCE算法整体流程如下：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

可见PARL框架也是早就设计好了：）

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

代码文件结构如下：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

CartPole例子的PG算法训练结果：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

model代码：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

algorithm代码

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

agent代码

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

训练代码

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

运行展示

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

4.4总结、作业、公式推导

策略梯度（PG）方法的一个总结：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

PolicyGradient解决Pong问题的一个示例：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

图像预处理的技巧：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

reward的衰减和正则化：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

PolicyGradient算法的原理推导（这里讲的非常好，很多书和材料都没有推导）。

注意2点：

1.蓝框里的是一个近似变换，使用了log函数

2.使用log函数后，状态转移概率p因为都没有对theta求导，因此可以删掉

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

注意最下方公式最右边有点小错误，很好理解，按马尔科夫链，应该是s2，a2，李科浇老师是直接复制过来忘改了。这里改正为：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL