RL强化学习各种算法流程伪代码

  • policy iteration
    RL强化学习各种算法流程伪代码

  • value iteration
    RL强化学习各种算法流程伪代码

    注:policy iteration使用bellman方程来更新value,最后收敛的value 即RL强化学习各种算法流程伪代码 是当前policy下的value值(所以叫做对policy进行评估),目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value,最后收敛得到的value即RL强化学习各种算法流程伪代码就是当前state状态下的最优的value值。因此,只要最后收敛,那么最优的policy也就得到的。因此这个方法是基于更新value的,所以叫value iteration。

  • TD(0)
    RL强化学习各种算法流程伪代码

  • SARSA
    RL强化学习各种算法流程伪代码

  • Q-learning
    RL强化学习各种算法流程伪代码

  • Double Q-learning
    RL强化学习各种算法流程伪代码

  • Deep Deterministic policy gradient( actor-citric)
    RL强化学习各种算法流程伪代码