强化学习纲要(周博磊)

强化学习纲要

一、概括与基础

1.什么是强化学习

强化学习纲要(周博磊)
强化学习是一种用于学习的计算方法,一个agent如何在复杂、不确定的环境下极大化奖励reward。
示意图由两部分组成:一部分是Agent,一部分是Environment。在强化学习的过程中Agent和Environment一直在交互,当Agent在Environment中获得一个状态state,Agent会利用这个状态state输出一个决策action,这个决策action放到环境Environment中去,环境Environment会通过这个决策action进行到下一步,输出下一个状态以及当前决策所得到的奖励。Agent的目的就是从环境中尽可能多的获取奖励。

2.Difference between Reinforcement Learning and Supervised Learning

  • 输入的是序列数据(不是独立同分布的)
  • 学习者没有被告知要采取哪些行动,而是必须通过尝试发现哪些行动能产生最大的回报
  • Trial-and-error exploration (balance between exploration and exploitation)[exploration是说尝试一些新的行为,这些新的行为可能让你得到更高的奖励,可能一无所有。exploitation是说采取已知的可以获取最大奖励的过程进行重复。]
  • 没有supervisor,只有一个reward

3.Features of Reinforcement Learning

  • 在环境中探索获得对环境的理解(试错探索)
  • 延时的奖励
  • 时间重要(序列数据)
  • Agent的行为会影响之后的数据

4.为什么关注强化学习

可以实现超人类的效果。

5.强化学习的例子

  • 下国际象棋
  • 刚出生的羚羊挣扎站起来
  • 股票交易
  • 玩游戏

6.时序决策过程

The history is the sequence of observations, actions, rewards.
强化学习纲要(周博磊)
State is the function used to determine what happens next.
强化学习纲要(周博磊)
Environment state and agent state
强化学习纲要(周博磊)

• Full observability: agent directly observes the environment state, formally as Markov decision process (MDP)
强化学习纲要(周博磊)

agent的观测可以包含所有环境运作的状态
• Partial observability: agent indirectly observes the environment, formally as partially observable Markov decision process(POMDP)
agent的观测并不能包含所有环境运作的状态

7.RL Agent的主要组成部分

  • Policy(决策函数):选取下一步的动作
  • value function(价值函数):对现在当前状态进行估价,现在的状态对之后的收益带来多大影响
  • Model:Agent的状态对整个环境的理解,决定世界是如何进行
  1. Policy决定Agent的行为,它是把输入的状态变成一个行为。有两种policy,一种是stochastic policy,另一种是deterministic policy。
    (1)Stochastic policy: Probabilistic sample 强化学习纲要(周博磊)

    (2)Deterministic policy:强化学习纲要(周博磊)

  2. value function是一个折扣的未来奖励加和,当选取某种行为未来得到的奖励。强化学习纲要(周博磊)

  3. model决定了下一个状态会是什么样的。
    (1) Predict the next state:强化学习纲要(周博磊)

    (2) Predict the next reward:强化学习纲要(周博磊)

8.RL Agents的类型

(1) 通过Agent学习的内容进行分类
强化学习纲要(周博磊)
(2) 通过Agent是否学习环境模型来分类
强化学习纲要(周博磊)

9.Exploration and Exploitation

强化学习纲要(周博磊)