强化学习(五)---基于模型的强化学习实战
有一个4*4的矩阵,0和15代表出口
结果输出第一个矩阵一共输出16个向量,每个向量里面的位置代表,在当前状态往哪里走比较好,第二个矩阵对第一个矩阵进行统计处理,更加直观,也是表示在16个状态,每个位置最好的动作方向
参考资料:唐宇迪视频
有一个4*4的矩阵,0和15代表出口
结果输出第一个矩阵一共输出16个向量,每个向量里面的位置代表,在当前状态往哪里走比较好,第二个矩阵对第一个矩阵进行统计处理,更加直观,也是表示在16个状态,每个位置最好的动作方向
参考资料:唐宇迪视频