关于强化学习不可行动作处理问题

在强化学习学习过程中，往往存在这样一种问题：总的动作空间很大，但是在特定状态下有些动作不可行，如何处理？

例如：迷宫问题中当智能体处于迷宫边缘（1,1），此时采取向左或者向上的动作都会超出迷宫边缘。关于强化学习不可行动作处理问题
在现实生活中确实有很多不可执行的动作，受到很多约束限制。目前所了解到的处理方式有以下几种：

1. 把动作集分为两部分：可执行动作和不可行执行动作。在选择动作的时候在可行动作的范围内。
2. 通过对动作设置惩罚项（目前是最常用的）
大家还有什么好的方法么？欢迎评论