强化学习(RL)初印象
学习百度AI Studio的笔记,供自己复习和记录学习过程中的思路使用,如想了解详情请移步百度AI Studio
强化学习(RL)初印象
前言 什么是智能/人工智能
Part1 什么是强化学习
强化学习(英语:Reinforcement learning,简称RL)
是机器学习中的一个领域
,强调如何基于环境而行动
,以取得最大化的预期利益。
核心思想:
智能体agent
在环境environment
中学习,根据环境的状态state
(或观测到的observation),执行动作action
,并根据环境的反馈reward
(奖励)来指导更好的动作。
注意:
从环境中获取的状态,有时候叫state
,有时候叫observation
,这两个其实一个代表全局
状态,一个代表局部
观测值,在多智能体环境里会有差别,但我们刚开始学习遇到的环境还没有那么复杂,可以先把这两个概念划上等号。
此图可以看到强化学习的reward既有延时
,即只有执行完所有步骤后才会知道有没有reward。下图也可以帮助理解这个“延时”!!!
Part2 强化学习的分类
Part3 强化学习能做什么
-
游戏(马里奥、Atari、Alpha Go、星际争霸等)
-
机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)
-
用户交互(推荐、广告、NLP等)
-
交通(拥堵管理等)
-
资源调度(物流、带宽、功率等)
-
金融(投资组合、股票买卖等)
-
其他
Part4 强化学习与监督学习的区别
-
强化
学习、监督
学习、非监督
学习是机器学习里的三个不同的领域
,都跟深度学习有交集
。 -
监督学习寻找
输入到输出
之间的映射
,比如分类和回归问题。 -
非监督学习主要寻找数据之间的
隐藏关系
,比如聚类问题。 -
强化学习则需要在与
环境的交互
中学习和寻找最佳决策方案。 -
监督学习处理认知问题
,强化学习处理决策问题
。
Part5 强化学习如何解决问题
-
强化学习通过不断的
试错探索
,吸取经验和教训,持续不断的优化策略,从环境
中拿到更好的反馈。 -
强化学习有两种学习方案 :
- 基于
价值
(value-based) - 基于
策略
(policy-based)
- 基于
Part6 强化学习的算法和环境
-
经典算法:
- Q-learning
- Sarsa
- DQN
- Policy Gradient
- A3C
- DDPG
- PPO
-
环境分类:
-
离散
控制场景(输出动作可数) -
连续
控制场景(输出动作值不可数)
-
-
强化学习经典
环境库GYM
将环境交互接口规范化为:- 重置环境reset()
- 交互step()
- 渲染render()
-
强化学习
框架库PARL
将强化学习框架抽象为Model
、Algorithm
、Agent
三层,使得强化学习算法的实现和调试更方便和灵活。