强化学习纲要(周博磊)
强化学习纲要
主要内容
一、概括与基础
1.什么是强化学习
强化学习是一种用于学习的计算方法,一个agent如何在复杂、不确定的环境下极大化奖励reward。
示意图由两部分组成:一部分是Agent,一部分是Environment。在强化学习的过程中Agent和Environment一直在交互,当Agent在Environment中获得一个状态state,Agent会利用这个状态state输出一个决策action,这个决策action放到环境Environment中去,环境Environment会通过这个决策action进行到下一步,输出下一个状态以及当前决策所得到的奖励。Agent的目的就是从环境中尽可能多的获取奖励。
2.Difference between Reinforcement Learning and Supervised Learning
- 输入的是序列数据(不是独立同分布的)
- 学习者没有被告知要采取哪些行动,而是必须通过尝试发现哪些行动能产生最大的回报
- Trial-and-error exploration (balance between exploration and exploitation)[exploration是说尝试一些新的行为,这些新的行为可能让你得到更高的奖励,可能一无所有。exploitation是说采取已知的可以获取最大奖励的过程进行重复。]
- 没有supervisor,只有一个reward
3.Features of Reinforcement Learning
- 在环境中探索获得对环境的理解(试错探索)
- 延时的奖励
- 时间重要(序列数据)
- Agent的行为会影响之后的数据
4.为什么关注强化学习
可以实现超人类的效果。
5.强化学习的例子
- 下国际象棋
- 刚出生的羚羊挣扎站起来
- 股票交易
- 玩游戏
6.时序决策过程
The history is the sequence of observations, actions, rewards.
State is the function used to determine what happens next.
Environment state and agent state
• Full observability: agent directly observes the environment state, formally as Markov decision process (MDP)
agent的观测可以包含所有环境运作的状态
• Partial observability: agent indirectly observes the environment, formally as partially observable Markov decision process(POMDP)
agent的观测并不能包含所有环境运作的状态
7.RL Agent的主要组成部分
- Policy(决策函数):选取下一步的动作
- value function(价值函数):对现在当前状态进行估价,现在的状态对之后的收益带来多大影响
- Model:Agent的状态对整个环境的理解,决定世界是如何进行
-
Policy决定Agent的行为,它是把输入的状态变成一个行为。有两种policy,一种是stochastic policy,另一种是deterministic policy。
(1)Stochastic policy: Probabilistic sample(2)Deterministic policy:
-
value function是一个折扣的未来奖励加和,当选取某种行为未来得到的奖励。
-
model决定了下一个状态会是什么样的。
(1) Predict the next state:(2) Predict the next reward:
8.RL Agents的类型
(1) 通过Agent学习的内容进行分类
(2) 通过Agent是否学习环境模型来分类