David Silver深度强化学习第1课- intro-RL

David Silver深度强化学习第1课 intro-RL
David Silver深度强化学习第1课- intro-RL

Agent（我们创建的算法）

算法就是一个从history映射到action的过程，其中history： David Silver深度强化学习第1课- intro-RL
由于history包含了太多冗长的信息，因此我们用state代替history。

state is a function of history
David Silver深度强化学习第1课- intro-RL
两种形式的state

以上两种状态的数学形式是Markov状态。 Markov状态具有Markov性质：将来的状态St+1只与现在的状态St有关，而与过去的状态无关。（状态表示法）。现在的状态St决定了未来所有的观测、状态、奖励、行动。

使用RL时，我们的主要任务即在完全可观测环境下创建agent状态，并以此决定下一步的policy。
David Silver深度强化学习第1课- intro-RL