【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象
最近参加了百度paddlepaddle第一期的强化学习课程,是百度工程师李科浇老师讲解的,特在此分享一下内容和心得。
课程分为7节,内容比较基础,但是讲解的很细致、深刻,主要介绍了值函数、策略梯度的强化学习。
下面就分别介绍一下课程内容、和大作业“四轴飞行器”项目的调参心得。
会分为好几期,目前先讲第一课的内容。
一、课程内容
1.强化学习初印象:
课程大纲如下:
强化学习分为2部分和3要素:
应用领域有个性推荐、股票交易、交通灯、对话系统等。
强化学习可基本分为2种类型,value-based和policy-based(一说另外还有actor-critic)
也可以分为model-based和policy-based,on-policy和off-policy
下面是一些强化学习算法框架,对各个算法的实现。(另外我觉得Tianshou也不错,清华本科生实现的那个框架)
RL的仿真环境,paddlepaddle直接调用了OpenAI的gym环境:
Gym环境的基本操作如下:
paddlepaddle对强化学习有个专门的库叫PARL,我觉得抽象的还是非常好,
也可以很方便地部署到多台机器上:
并行的性能也是有极大的提升:
最后来个总结: