强化学习

机器学习可以分为三类，分别是 supervised learning，unsupervised learning 和reinforcement learning。而强化学习与其他机器学习不同之处为：

没有教师信号，也没有label。只有reward，其实reward就相当于label。
反馈有延时，不是能立即返回。
相当于输入数据是序列数据。
agent执行的动作会影响之后的数据。

强化学习的关键要素有：environment，reward，action 和 state。有了这些要素我们就能建立一个强化学习模型。强化学习解决的问题是，针对一个具体问题得到一个最优的policy，使得在该策略下获得的reward最大。所谓的policy其实就是一系列action。也就是sequential data。
强化学习可用下图来刻画，都是要先从要完成的任务提取一个环境，从中抽象出状态(state) 、动作(action)、以及执行该动作所接受的瞬时奖赏(reward)。

强化学习

reward

reward通常都被记作RtRt，表示第t个time step的返回奖赏值。所有强化学习都是基于reward假设的。reward是一个scalar。

action

action是来自于动作空间，agent对每次所处的state用以及上一状态的reward确定当前要执行什么action。执行action要达到最大化期望reward，直到最终算法收敛，所得的policy就是一系列action的sequential data。

state

就是指当前agent所处的状态。

policy

policy就是只agent的行为，是从state到action的映射，分为确定策略和与随机策略，确定策略就是某一状态下的确定动作a=π(s), 随机策略以概率来描述，即某一状态下执行这一动作的概率：π(a|s)=P[At=a|St=s]。

value function

因为强化学习今本上可以总结为通过最大化reward来得到一个最优策略。但是如果只是瞬时reward最大会导致每次都只会从动作空间选择reward最大的那个动作，这样就变成了最简单的贪心策略(Greedy policy)，所以为了很好地刻画是包括未来的当前reward值最大（即使从当前时刻开始一直到状态达到目标的总reward最大）。因此就够早了值函数（value function）来描述这一变量。表达式如下：

强化学习