强化学习纲要

主要内容

强化学习纲要
- 一、概括与基础

一、概括与基础

1.什么是强化学习

强化学习纲要（周博磊）
强化学习是一种用于学习的计算方法，一个agent如何在复杂、不确定的环境下极大化奖励reward。
示意图由两部分组成：一部分是Agent，一部分是Environment。在强化学习的过程中Agent和Environment一直在交互，当Agent在Environment中获得一个状态state，Agent会利用这个状态state输出一个决策action，这个决策action放到环境Environment中去，环境Environment会通过这个决策action进行到下一步，输出下一个状态以及当前决策所得到的奖励。Agent的目的就是从环境中尽可能多的获取奖励。

2.Difference between Reinforcement Learning and Supervised Learning

输入的是序列数据（不是独立同分布的）
学习者没有被告知要采取哪些行动，而是必须通过尝试发现哪些行动能产生最大的回报
Trial-and-error exploration (balance between exploration and exploitation)[exploration是说尝试一些新的行为，这些新的行为可能让你得到更高的奖励，可能一无所有。exploitation是说采取已知的可以获取最大奖励的过程进行重复。]
没有supervisor，只有一个reward

3.Features of Reinforcement Learning

在环境中探索获得对环境的理解（试错探索）
延时的奖励
时间重要（序列数据）
Agent的行为会影响之后的数据

4.为什么关注强化学习

可以实现超人类的效果。

5.强化学习的例子

下国际象棋
刚出生的羚羊挣扎站起来
股票交易
玩游戏

6.时序决策过程

The history is the sequence of observations, actions, rewards.
强化学习纲要（周博磊）
State is the function used to determine what happens next.

Environment state and agent state

• Full observability: agent directly observes the environment state, formally as Markov decision process (MDP)
强化学习纲要（周博磊）

agent的观测可以包含所有环境运作的状态
• Partial observability: agent indirectly observes the environment, formally as partially observable Markov decision process(POMDP)
agent的观测并不能包含所有环境运作的状态

7.RL Agent的主要组成部分

Policy（决策函数）：选取下一步的动作
value function（价值函数）：对现在当前状态进行估价，现在的状态对之后的收益带来多大影响
Model：Agent的状态对整个环境的理解，决定世界是如何进行

Policy决定Agent的行为，它是把输入的状态变成一个行为。有两种policy，一种是stochastic policy，另一种是deterministic policy。
(1)Stochastic policy: Probabilistic sample

(2)Deterministic policy:
value function是一个折扣的未来奖励加和，当选取某种行为未来得到的奖励。
model决定了下一个状态会是什么样的。
(1) Predict the next state:

(2) Predict the next reward: