关于强化学习不可行动作处理问题

在强化学习学习过程中,往往存在这样一种问题:总的动作空间很大,但是在特定状态下有些动作不可行,如何处理?

例如:迷宫问题中当智能体处于迷宫边缘(1,1),此时采取向左或者向上的动作都会超出迷宫边缘。关于强化学习不可行动作处理问题
在现实生活中确实有很多不可执行的动作,受到很多约束限制。目前所了解到的处理方式有以下几种:

1. 把动作集分为两部分:可执行动作和不可行执行动作。在选择动作的时候在可行动作的范围内。
2. 通过对动作设置惩罚项(目前是最常用的)
大家还有什么好的方法么?欢迎评论