【RL从入门到放弃】【十五】

1、基于策略搜索的RL

之前介绍的都是基于值函数的RL,通过神经网络来毕竟值函数,然后通过greedy策略或者贪婪策略去选择action,基于值函数的RL存在一个缺陷,那就是动作空间必须是有限的且是离散的,当动作空间是连续的或者无穷大时便无法处理。此时基于策略搜索的RL就开始起到作用了

【RL从入门到放弃】【十五】

实际上觉得上面这个分类有点怪怪的

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

在不同的情形下,累积回报的期望是否最大的衡量方式是不同的

【RL从入门到放弃】【十五】

分类

【RL从入门到放弃】【十五】

其中应该还有逆强化学习,但是这个基本上没有被划分进去,而且讲解的也都是理论知识。

【RL从入门到放弃】【十五】

 

2、策略梯度

策略梯度的推导可以从似然率和重要性采样的角度来推导

2.1似然率

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

存疑:

最后一步的推理感觉很奇怪:

【RL从入门到放弃】【十五】

前面那个概率难道就省去了吗?为什么变成这个样子了呢?

【RL从入门到放弃】【十五】

为什么可以使用经验平均来获取呢?

2.2重要性采样

【RL从入门到放弃】【十五】

这里的第一个问题是:

【RL从入门到放弃】【十五】

这里是如何实现的呢?

【RL从入门到放弃】【十五】

第二个问题这里是如何推导出来的:

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

似然率策略梯度

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

为什么轨迹的似然率可以写成上面这个样子呢?

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

为什么上面这里会多上一个求和的操作?

【RL从入门到放弃】【十五】

证明:

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

除了上⾯介绍的增加基线的⽅法外,修改回报函数也可以进⼀步减⼩⽅差。

【RL从入门到放弃】【十五】

【RL从入门到放弃】【十五】

为了使方差最小,可以利用前面的方法求解相应的基线b

3、策略梯度实例

【RL从入门到放弃】【十五】

设计一个这样的softmax策略,这里我比较疑惑的是概率的计算使用的输出的f0,f1,为什么不是softmax之后的概率值呢?

【RL从入门到放弃】【十五】

neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=all_act, labels=self.tf_acts)

所以上面这部分是交叉熵,下面是计算loss

loss = tf.reduce_mean(neg_log_prob * self.tf_vt)  # reward guided loss

我们希望的loss值最大。