RL强化学习各种算法流程伪代码

policy iteration
value iteration

注：policy iteration使用bellman方程来更新value，最后收敛的value 即是当前policy下的value值（所以叫做对policy进行评估），目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value，最后收敛得到的value即就是当前state状态下的最优的value值。因此，只要最后收敛，那么最优的policy也就得到的。因此这个方法是基于更新value的，所以叫value iteration。
TD(0)
SARSA
Q-learning
Double Q-learning
Deep Deterministic policy gradient( actor-citric)