最近需要学习POMDP相关的东西，奈何需要学习的东西较多。之前没接触过强化学习，找了个视频找了本书看。将一下东西记录下来吧。
视频地址：David Silver强化学习课程
参考博客：

强化学习简介

核心思想

在强化学习的主要核心就是：
通过agent观察的Environment的变化（称之为observation），来决定采取不同的动作（action），使未来获得的奖励（reward）最大。

Agent and Environment

David Silver深度强化学习-1-学习笔记
如上图。在一个时间序列过程中,每个时间步t对agent和environment都有影响。
对agent来说，在每一个时间步长中，要进行如下操作：

执行动作
观察环境变化
计算执行此动作的reward

对环境environment来说，执行的操作与agent对应：

接收agent的动作
观察environment的变化，发送observation给agent
发送reward值给agent

History and State

这里引入这两个概念：

History 由observations, actions, rewards组成的一个序列
state 决定下一个时间步将会发生什么的表示

定义公式如下：

$H_t$ = $O_1$ , $A_1$ , $R_1$ … $O_t$ , $A_t$ , $R_t$

状态由History决定：

$S_t$ = $f(H_t)$

一般地，将History state定义为一个Markov state，即下一时间步的状态 $S_{(t+1)}$ 只和当前状态 $S_t$ 有关，与再之前的信息无关。

Major Components of an RL Agent

agent一般由下列三部分组成，也可不同时存在

policy 策略
Value function 值函数
Model 模型

policy 策略

A policy is the agent’s behavior
It is a map from state to action
Deterministic policy: a = $π$ (s) 确定策略
Stochastic policy: $π(a|s)$ = P $[At=a|St=s]$ 随机策略

Value function（值函数）

它预测了当前状态下未来可能获得的reward的期望，用于衡量当前状态的好坏。
公式:
$V_π（S）$ = $E_π[R_{t+1}+ γR_{t+2}+···|S_t = s]$
表示当前状态s下，未来n个时间步获得reward的期望值

Model（模型）

预测environment下一步会做出什么样的改变，从而预测agent接收到的状态或者reward是什么。

P模型预测环境的下一个状态
R模型预测下一个reward

探索和利用

强化学习是一种试错(trial-and-error)的学习方式：最开始的时候不清楚environment（环境）的工作方式，不清楚执行什么样的action（行为）是对的，什么样的action（行为）是错的。因而agent需要从不断尝试的经验中发现一个好的policy，从而在这个过程中获取更多的reward。

在学习过程中，会有一个在Exploration（探索）和Exploitation（利用）之间的权衡。

Exploration（探索）会放弃一些已知的reward信息，而去尝试一些新的选择——即在某种状态下，算法也许已经学习到选择什么action让reward比较大，但是并不能每次都做出同样的选择，也许另外一个没有尝试过的选择会让reward更大，即Exploration希望能够探索更多关于environment的信息。
Exploitation（利用）指根据已知的信息最大化reward。

David Silver深度强化学习-1-学习笔记