强化学习入门教程(附学习大纲)

强化学习入门教程(附学习大纲)

零基础,想要入门或从事强化学习研究的同学有福了!

****学院特邀资深讲师为大家分享《强化学习深入浅出完全教程》从零基础开始入门强化学习,在教学的过程中,配合   具体案例、代码演示 

让大家可以  一目了然,快速上手 



主讲老师



郭宪  南开大学计算机与控制工程学院博士后,AI 教研室团队成员 

2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于2016年1月获得工学博士学位,期间在国内外知名杂志和会议发表论文数10篇。2016年以来, 郭博士主攻方向为机器人智能感知和智能决策,目前主持两项*课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。


课程简介



深入浅出地介绍强化学习的概念,算法发展历史,分类,及发展趋势。

在教学的过程中,配合具体案例、代码演示,让学员可以一目了然,快速上手。


学习收益



通过本课程的学习,学员将会收获:

1. 帮助学员系统性的掌握强化学习知识,并运用到具体工作中。

2. 实践与理论结合,培养学员在强化学习领域深入思考及实践能力


开课时间



2月6日起,每周二、四20:00 - 22:00在线直播

直播后提供录制回放视频,可在线反复观看,有效期2年


课程大纲



第一课:  强化学习概述

1. 强化学习要解决的问题

2. 强化学习的发展历史
3. 强化学习方法的分类
4. 强化学习方法的发展趋势


第二课:  马尔科夫决策过程       

1. 基本概念,马尔科夫性、马尔科夫过程、马尔科夫决策过程

2. MDP基本元素:策略、回报、值函数、状态行为值函数

3. 贝尔曼方程、最优策略。

4. 强化学习的数学形式化

5. Python介绍,及简单的代码演示。

第三课: 基于模型的动态规划方法

1. 动态规划概念介绍

2. 策略评估过程介绍
3. 策略改进方法介绍
4. 策略迭代和值迭代
5. 值迭代与最优控制介绍
6. 基于 python 的动态规划方法演示

 

第四课:  蒙特卡罗方法

1. 蒙特卡罗策略评估方法

2. 蒙特卡罗策略改进方法

3. 基于蒙特卡罗的强化学习方法

4. 同策略和异策略强化学习

5. 重要性采样

6. 基于 python 的蒙特卡罗强化学习方法演示

第五课: 时间差分方法

1. DP,MC 和 TD 方法比较
2. MC 和 TD 方法偏差与方差平衡
3. 同策略 TD 方法:Sarsa 方法
4. 异策略 TD 方法:Qlearning 方法
5. N 步预测及 的前向和后向观点
6. 基于 python 的 TD 方法实现


第六课:  Gym环境构建及强化学习算 法实现

1. Gym环境的安装和测试
2. Gym环境创建的关键函数讲解
3. 创建自己的Gym环境讲解
4. 基于自己创建的Gym环境实现 MC,TD等算法

 
第七课: 值函数逼近方法

1. 值函数的参数化表示
2. 值函数的估计过程
3. 值函数的优化方法,随机梯度下降和半梯度下降法
4. 值函数的线性逼近


第八课: DQN方法及其变种

1. DQN 方法介绍
2. DQN 变种 Double DQN, Prioritized Replay, Dueling Network

 
第九课: 策略梯度方法
1. 策略梯度方法介绍
2. 似然率策略梯度推导及重要性采样视角推导
3. 似然率策略梯度的直观理解
4. 常见的策略表示
5. 常见的减小方差的方法:引入基函数法,修改估计值函数法


加入课程群



强化学习入门教程(附学习大纲)


点击“阅读全文立即查看课程详情