为什么强化学习会成为当下机器学习最火的研究领域？

美国首位人工智能协会（AAAI）华人Fellow，国际顶级学术会议KDD、IJCAI等大会主席，香港科技大学杨强教授曾说：“深度学习是昨天，强化学习是今天。”

现在但凡写人工智能的文章，必提AlphaGo。因为AlphaGo在围棋人机大战中里程碑式的胜利，人工智能迎来了新的春天，同时，正是AlphaGo的问世，将强化学习的研究推向了新的高度，使得强化学习成为当下机器学习最火热的研究领域。

强化学习（或者增强学习）本质是解决决策问题，针对一个具体问题得到一个最优的策略，使得在该策略下获得的奖励最大。它的思想与人类的学习过程有很大的相似性，是一种基于环境反馈而做决策的通用框架，因此被认为是迈向通用人工智能的重要途径。

随着数据处理能力的逐步提升以及深度学习的发展，强化学习解决复杂问题的能力也得到了较大的提高，除应用于机器人控制、无人驾驶、游戏博弈，还应用于制造业、电商广告推荐等与我们生活息息相关的领域中。

为什么强化学习会成为当下机器学习最火的研究领域？

虽然强化学习已经引起国内外足够的关注，但由于中文资料少之又少，国内鲜有高校开设系统性的课程，同时缺乏相互交流的圈子。深蓝学院联合中科院自动化所、清华大学的老师和研究生，打磨推出『强化学习理论与实践』在线课程。课程通过理论与代码实践，让大家掌握算法的核心思想，并安排Project大作业，体验强化学习的实际应用；同时，建立课程答疑群，便于相互交流学习。

课程团队

张启超 中科院自动化所复杂系统管理与控制国家重点实验室助理研究员，中科院自动化所博士，研究方向为强化学习、自适应动态规划及博弈论。在顶级期刊和会议TNNLS、TCYB、IEEE CIM、WCCI上以第一作者身份发表十多篇文章，获得中科院院长优秀奖、北京市优秀毕业生等，团队在2017中国智能车未来挑战赛中获得两项冠军（离线测试比赛前方车辆检测、前方车辆距离监测）。

陈达贵 清华大学自动化系控制理论研究所硕士生，主要研究方向是深度强化学习的理论和计算图形学，具有丰富的深度学习和深度强化学习实践经验。

课程内容

第1章概述

1.1 强化学习问题

1.2 强化学习的组成

1.3 智能体的组成

1.4 强化学习的分类

1.5 强化学习中的关键概念

1.6 编程实践：环境和随机策略

第2章 马尔可夫决策过程

2.1 马尔可夫过程

2.2 马尔可夫奖励过程

2.3 有限马尔可夫决策过程

2.4 马尔可夫决策过程的引申

2.5 编程实践：马尔可夫决策过程

第3章动态规划

3.1 动态规划简介

3.2 策略评价

3.3 策略提升

3.4 策略迭代

3.5 值迭代

3.6 动态规划引申

3.7 编程实践：在Gridworld上的策略迭代和值迭代

第4章无模型方法一：蒙特卡洛

4.1 无模型方法简介

4.2 On-policy和Off-policy

4.3 蒙特卡洛方法简介

4.4 蒙特卡洛评价

4.5 蒙特卡洛优化

4.6 增量算法

4.7 编程实践：蒙特卡洛方法

第5章无模型方法二：时间差分

5.1 时间差分简介

5.2 时间差分评价

5.3 SARSA

5.4 Q学习

5.5 编程实践：TD算法

第6章无模型方法三：多步自举

6.1 多步自举简介

6.2 TD(lambda)

6.3 SARSA(lambda)

6.4 off-policy下的多步自举

6.5 编程实践：n-step TD

第7章函数近似与深度网络

7.1 函数近似

7.2 梯度下降算法

7.3 深度学习基础

7.4 编程实践：深度学习框架

第8章策略梯度算法

8.1 策略梯度简介

8.2 策略梯度定理

8.3 REINFORCE规则

8.4 Actor-Critic算法

8.5 TRPO算法

8.6 编程实践：AC算法

第9章深度强化学习

9.1 DQN

9.2 A3C

9.3 DDPG

9.4 PPO

9.5 编程实践：Atari游戏

第10章基于模型的强化学习

10.1 基于模型的强化学习简介

10.2 基于模型的规划

10.3 Dyna算法

10.4 基于仿真的搜索

第11章前景与大作业

11.1 探索和利用

11.2 基于模型的强化学习方法

11.3 分层强化学习

11.4 反强化学习和示范学习

11.5 多智能体强化学习

11.6 记忆和注意力机制

11.7 元学习

11.8 Project大作业

课程目标

本课程主要面向初学者，讲述强化学习的基础理论，介绍强化学习的基本应用，给学员建立系统的强化学习理论体系。同时，本课程会带领学员了解其相关的最新技术，解决复杂环境下的强化学习问题。

课程特色

1、课程学习结束，根据每次作业的分数，评选优秀学员；

2、优秀学员获得深蓝学院颁发的证书；

3、优秀学员推荐至企业实习或者就业，有机会获得旷视科技（Face++）2000元奖学金。

先修课程

高等数学、线性代数、概率论、Python等

报名方式

前200位报名的同学可添加助教欣然微信（shenlan-xinran）领取100元的早鸟报名优惠券。

为什么强化学习会成为当下机器学习最火的研究领域？

点击“阅读原文”，了解旷视（Face++）奖学金

为什么强化学习会成为当下机器学习最火的研究领域？

相关推荐