强化学习(2)

基于序列决策过程基础上

马尔克夫决策过程

1.强化学习模型构建

具体优化什么变量?

state 参数更新时和环境交互

环境给Agent一个观察,智能体给一个动作,环境给一个reward 再下一个观察…

数学化

environment将state s0传递给agent,然后action A0,reward R1

即S0 A0 R1 S1 A1…对这些序列 即Episode 学习

每一次的过程称为Episode

Si Ai相当于数据;奖赏值相当于label

目标最大化期望累积奖赏

无法直接优化Rt!

如果只优化一步的Rt,若只考虑一步的Rt,对于总体可能不是最好的,就像贪心算法那样不一定是最好的,随机性太大。

马尔克夫决策过程 MDP

对于某种问题,建立马尔可夫决策过程,然后解该模型。最后通过改模型的参数最大化期望累计奖赏来的得到最优解。

最大化期望累积奖赏: R1+R2+…+Rt+Rt+1+…

Gt=Rt+1+Rt+2…+

只考虑未来时刻和当前时刻的奖赏

但是未来时刻的reward 对当前return影响是不一样的

强化学习(2)

γ=0就是贪心算法

γ=1就是每一时刻奖赏对当前是一样的

马尔科夫决策过称正式描述强化学习的环境;因此此环境是可以全部观察的;几乎所有的强化学习问题都可以提炼成一个MDP问题
全部观察指环境的所有状态,所有reward集合我们都知道
马尔克夫性 P[St+1|St]=P[St+1|S1,…St]
下一时刻转移的状态之和前一时刻有关和之前的都没有关系
状态转移概率Pss’ =P[St+1=s’|St=s]
类似于指数分布
P11指前一时刻状态为1的状态到下一时刻依然在1时刻的概率
Markov chain <S,P> S是状态集合P是状态转移概率矩阵
sleep是一个状态的终止,即进入该状态只会以1的概率待在这个状态,不会进入别的状态

状态转移概率矩阵特点 对于每一行 每一列求和都为1,
Markov reward process:<S,P,R,γ>
R是奖赏函数,伽马是折扣系数
Value function值函数是未来奖赏值得预测;可以用来评估当前状态的好坏;agent可以根据此来选择要执行的动作 Vπ(S)=Eπ[Gt|St=s] 当前状态return的期望
Vπ(S)=Eπ[Rt+γRt+1+…|St=s]=Eπ[Rt+γ[Rt+1+Rt+2+…]|St=s]=Eπ[Rt+1+γGt+1|St=s]=Eπ[Rt+1+γv(St+1)|St=s] V(s)=Rs+γ∑Pss’V(s’)(s’属于S)
收获是针对一个马尔可夫链中的某一个状态来说的
MRP矩阵形式 贝尔曼方程v=R+γPv
只需要求得相关转移的逆矩阵就可以求解贝尔曼方程
v=R+γPv; (1-γP)v=R; v=(1-γP)^(-1)R

强化学习(2)强化学习(2)强化学习(2)强化学习(2)
RL实际问题中转移概率不知道

马尔科夫决策过程

定义:<S, P, A, R, r>
S是状态集
A是动作集
P是状态转移概率矩阵:
R是奖赏集合
r是折扣系数, r in [0, 1]

在这个模型中加入了动作,因此P的结构也发生了变化。