论文笔记-Learning Latent Dynamics for Planning from Pixels
Learning Latent Dynamics for Planning from Pixels
1 介绍
输入图像经过编码网络(灰色梯形)变成隐藏状态(绿色),然后隐藏状态可以被映射成奖励和图片。
为了预演,我们将当前图片经过编码网络变成当前隐藏状态变成绿色,然后进行各个序列的虚拟预测,计算各个序列的奖励,最后返回最好序列的第一个action执行
2 算法
Deep planning net
planning algorithm
training loss
loss 可以分为两项,第一项为通过预测的与真实的的MSE,第二项为上图实线对应的和虚线对应的的KL散度
3种model
RNN中为确定数值,SSM中为随机变量,由均值和方差组成,RSSM结合两种model,为随机变量,为确定数值。
4 实验结果
与之前的强化学习算法相比,训练效率提升50倍。