您的位置: 首页 > 文章 > 强化学习（RL）初印象

强化学习（RL）初印象

分类: 文章 • 2024-01-06 18:15:34

学习百度AI Studio的笔记，供自己复习和记录学习过程中的思路使用，如想了解详情请移步百度AI Studio

强化学习（RL）初印象

前言什么是智能/人工智能
Part1 什么是强化学习
Part2 强化学习的分类
Part3 强化学习能做什么
Part4 强化学习与监督学习的区别
Part5 强化学习如何解决问题
Part6 强化学习的算法和环境
Part7 本篇总述

前言什么是智能/人工智能

强化学习（RL）初印象

Part1 什么是强化学习

强化学习（RL）初印象

强化学习（英语：Reinforcement learning，简称RL）
是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

核心思想：
智能体agent在环境environment中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈reward（奖励）来指导更好的动作。

注意：
从环境中获取的状态，有时候叫state，有时候叫observation，这两个其实一个代表全局状态，一个代表局部观测值，在多智能体环境里会有差别，但我们刚开始学习遇到的环境还没有那么复杂，可以先把这两个概念划上等号。
强化学习（RL）初印象

强化学习（RL）初印象

此图可以看到强化学习的reward既有延时，即只有执行完所有步骤后才会知道有没有reward。下图也可以帮助理解这个“延时”！！！

Part2 强化学习的分类

强化学习（RL）初印象

Part3 强化学习能做什么

强化学习（RL）初印象

游戏（马里奥、Atari、Alpha Go、星际争霸等）
机器人控制（机械臂、机器人、自动驾驶、四轴飞行器等）
用户交互（推荐、广告、NLP等）
交通（拥堵管理等）
资源调度（物流、带宽、功率等）
金融（投资组合、股票买卖等）
其他

Part4 强化学习与监督学习的区别

强化学习、监督学习、非监督学习是机器学习里的三个不同的领域，都跟深度学习有交集。
监督学习寻找输入到输出之间的映射，比如分类和回归问题。
非监督学习主要寻找数据之间的隐藏关系，比如聚类问题。
强化学习则需要在与环境的交互中学习和寻找最佳决策方案。
监督学习处理认知问题，强化学习处理决策问题。

Part5 强化学习如何解决问题

强化学习通过不断的试错探索，吸取经验和教训，持续不断的优化策略，从环境中拿到更好的反馈。
强化学习有两种学习方案 :
- 基于价值(value-based)
- 基于策略(policy-based)

Part6 强化学习的算法和环境

经典算法：
- Q-learning
- Sarsa
- DQN
- Policy Gradient
- A3C
- DDPG
- PPO
环境分类：
- 离散控制场景（输出动作可数）
- 连续控制场景（输出动作值不可数）
强化学习经典环境库GYM将环境交互接口规范化为：
- 重置环境reset()
- 交互step()
- 渲染render()
强化学习框架库PARL将强化学习框架抽象为Model、Algorithm、Agent三层，使得强化学习算法的实现和调试更方便和灵活。

Part7 本篇总述

强化学习（RL）初印象