强化学习

强化学习

state->action 叫做一个policy
相当于每个state做了个action的分类，即找到最好的policy

input: state(界面，图片等)
output: <action0, 70%>, <action1, 20%>, <action2, 10%>…

确定方法：Q-learning; DQN及其扩展
目的就是学习价值最大

input: state(界面，图片等)
output: value(<action0, value0>, <action1, value1>…)

直到此刻的装态以及行为，预测下一刻的状态以及回报，模拟真实的环境反馈

价值函数：
强化学习
下一状态的最大回报作为价值
策略函数：

能够达到价值最大的行为作为策略

目标价值：
强化学习

目标价价值由当前回报r和t+1价值组成

算法：

Initialize Q[num_states, num_actions] ( Q(s,a) ) arbitrarily
Repeat (for each episode) :
- Initialize s (observe state)
- Repeat (for each step of episode) :
  - choose a from s using policy derived from π()
  - take action a, observe r, s’
  - Q(s , a) <- Q(s , a) + α[ r + γmaxa’ Q(s’ , a’) - Q(s, a) ]
  - s <- s’
  - Until s is terminal

例子：

补充：

同Q-learning的过程类似，迭代优化，Action-Reward不是简单的table，是深度模型学习的目标，并且添加了 experience replay，用于模型训练

Q table无法描述复杂问题，这里用神经网络作为Q函数，优化输出，直接生成<Q, action>，（由图一–>图二）

没有pooling层，因为需要保留位置信息
基本结构：conv1(ReLu)->conv2(ReLu)->conv3(ReLu)->fc4(ReLu)->fc5(Linear)

Loss：

算法：

Asynchronous 异步
DQN: 单个agent，单个神经网络，一个环境
A3C：一个全局神经网络，多个worker agent，每个agent复制一份神经网络，一个环境，单独优化，通过独立的进行多个worker agent训练，增加训练的多样性
Actor-Critic 演员 - 评论
演员：相当于一个policy，policy就是估计最好的action，即根据神经网络求出state下action的概率分布
评论：value，不同action能得到的回报
Value和policy结合，通过全连接层生成，类似于duelingDQN
Advantage 不仅考虑模型的回报，还考虑某个具体action带来的贡献的大小
A = R - V(s)
A: advantage，R：当前reward，V(s)：value函数，advantage用于value loss的计算

三个A结合：

流程图：
强化学习