最近参加了百度paddlepaddle第一期的强化学习课程，是百度工程师李科浇老师讲解的，特在此分享一下内容和心得。

课程分为7节，内容比较基础，但是讲解的很细致、深刻，主要介绍了值函数、策略梯度的强化学习。

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

下面就分别介绍一下课程内容、和大作业“四轴飞行器”项目的调参心得。

会分为好几期，目前先讲第一课的内容。

一、课程内容

1.强化学习初印象：

课程大纲如下：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

强化学习分为2部分和3要素：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

应用领域有个性推荐、股票交易、交通灯、对话系统等。

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

强化学习可基本分为2种类型，value-based和policy-based（一说另外还有actor-critic）

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

也可以分为model-based和policy-based，on-policy和off-policy

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

下面是一些强化学习算法框架，对各个算法的实现。（另外我觉得Tianshou也不错，清华本科生实现的那个框架）

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

RL的仿真环境，paddlepaddle直接调用了OpenAI的gym环境：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

Gym环境的基本操作如下：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

paddlepaddle对强化学习有个专门的库叫PARL，我觉得抽象的还是非常好，

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

也可以很方便地部署到多台机器上：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

并行的性能也是有极大的提升：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

最后来个总结：

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象