强化学习 - 详细解读DQN
详细解读DQN
一. 强化学习
1. 什么是强化学习问题?
强化学习是机器学习领域的三大分支之一,深度学习+强化学习也被认为是通往通用AI的道路。
强化学习问题可以描述为agent从environment中获取观察的state和获取reward,并产生action作用于environment。如上图描述所示。用数学语言描述就是Markov Decision Process(MDP)。
2. 强化学习的理论体系
(1). MDP
强化学习问题可以用MDP来描述。在说MDP之前,需要先了解Markov Property和Markov Process。
Markov Property
简言之,当前状态包含了过去所有状态的信息,一旦当前状态信息已知,过去状态信息就可以抛弃。
Markov Property除了包含有这一信息,还有就是状态转移概率。
Markov Process
在说MDP之前要说的就是Markov Process了。
下面是Markov Process的例子。
左面的图是Markov Process的实际体现。圆圈中代表不同的state,以及曲线上的状态转移概率(state transition probability)。
我们可以从这个描述中随机的取样,以为初始状态,上图右侧是部分sample的episodes(即从初始状态到终止状态的路径,包含所有走过的中间状态)。
描述了从Markov Process中sample episodes后,对应的就是在sample时各个state之间的转移概率。下图描述的便是状态转移概率。
Markov Decision Process
说完了Markov Property和Markov Process,现在应该说一下Markov Decision Process了。
MDP中除了之前说的之外,还有等信息,所有的这些才构成了MDP的要素。
强化学习问题是通过找到最优的策略(对应MDP的元素,也就是选择最优的,在不同的上选择最优的)来使获得的最大。
我们将会逐渐的说明所有要素后再回顾MDP的完整架构。
(2).
的定义如下:
为什么是从开始呢,是因为回报函数的意义是在时刻,执行一步后到下一状态的回报值.
我们可以通过上面提到的那个例子, 把的部分添加上, 来理解式子的意义.
从图中可以看到, 只有从一个状态转移到另一个状态的时候, 才会有奖励值, 这个设置方式正是MDP的设置方式.
为什么需要有 ?
越接近0,表示越注重当前回报,当时,, 表示只以执行一次后的作为最终的, 此时系统只关注眼前的利益.
越接近1, 表示系统的眼光更长远, 当时, 代表从当前步一直到目标所有的奖励值之和, 考虑到所有的奖励情况.
现在, 我们已经有个的计算公式, 只要遍历MDP结构的所有结点, 就可以得到的最大值, 也就可以得到相应的最优的策略. 但问题是, 对于小规模的问题, 这样计算没有问题, 但是大规模的问题, 只有当某个开始, 已知到目标全部遍历完成, 才可以得到这个能获得的最终的, 计算效率很低.
因此, 再引入一个概念, .
(3).
从定义来看, 就是在状态下回报的期望值.
从实际意义来理解,就是从状态开始,能获得总的估计,体验出了这个状态的价值.
还是以上面提到的例子来解释.
对于状态的,就是以为初始状态一直到终止状态每个episode回报值的平均值.
以代替作为评价标准,来寻找最优的策略,那么下面的问题就是求解,只要能解出的最大值,对应的episode就是最优的策略.
(4).
为了求解,我们将展开.
最后的一个等式是因为期望体现在实际的MDP结构中,就是到不同的概率乘以.
表示的是以迭代的方式求解.
为了求解,我们将其表示为矩阵的形式.
通过此段文字上面的图片的说明,就可以推出下面矩阵的表示形式.
因为是线性方程,所以对于简单的MDP问题,可以直接求解.对于复杂的MDP问题,可以通过迭代的方式求解.
自此,已经说了MDP中的,还有一个重要的元素没有说:.
(5).
于之间是输入输出的关系,给一个,有对应的