强化学习概念理解

一、基本理解

  • 强化学习是智能体(Agent)以“试错”的 方式进行学习,通过与环境进行交互获得的奖励指导行为,目标是使智能体获得最大的 奖励
  • 所谓强化学习,是指从环境状态到行为映 射的学习,以使系统行为从环境中获得的累积Reward(奖励值)最大。
  • 在强化学习中,算法来把外界环境转化为最大化奖励量的方式的动作,算法并没有 直接告诉Agent(行为主体)要做什么或者要采取哪个动作,而是Agent通过看哪个动作得到了最多的奖励来自己发现。
  • Agent的动作的影响不只是立即得到的奖励, 而且还影响接下来的动作和最终的奖励
    1、学习系统没有像很多其他形式的机器学习方法一样被告知应该做出什么行为
    2、必须在尝试之后才能发现哪些行为会导致奖励最大化
    3、当前的行为可能不仅仅会影响即时的奖励,还会影响下一步的奖励以及后续的所有奖励
    二、基本组成
    1、智能体(agent)
    2、状态(state)
    3、行为(action)
    4、奖励(reward)
    5、策略(policy)
    三、强化学习特点

强化学习与其他机器学习不同之处为:
◼ 没有教师信号,也没有label,只有reward。
◼ 反馈有延时,不是能立即返回。
◼ 数据是序列化的,数据与数据之间是有关的,而不是i.i.d的;
◼ agent执行的动作会影响之后的数据。
四、强化学习的关键要素
 强化学习的关键要素有:environment, reward,action 和 state。有了这些要素我们 就能建立一个强化学习模型。
 强化学习解决的问题是,针对一个具体问题 得到一个最优的policy(策略),使得在该 策略下获得的return(长期回报)最大。
 所谓的policy其实就是一系列action,也就是 sequential data。

四、强化学习的模型:

强化学习概念理解
Agent与环境的交互接口包括行动(Action)、即 时奖励(Reward)和状态(State)。

强化学习概念理解

强化学习概念理解
五、奖励与动作

 reward
◼ reward通常都被记作Rt,表示第t个time step的返回奖励值。所有强化学习都是基于reward假设的。
◼ reward是一个标量。
◼ 注意:回报(return)是奖励(reward)的累积。
 action
◼ action是来自于动作空间,agent对每次所处的 state用以及上一状态的reward确定当前要执行什 么action。
◼ 执行action要达到最大化期望reward,直到最终 算法收敛,所得的policy就是一系列action的 sequential data。

六、状态与策略
 state
◼ 就是指当前agent所处的状态。
 policy
◼ policy就是指agent在特定状态下的行为依据,是从state到action的映射。
◼ 分为确定策略和与随机策略。
◼ 确定策略:就是某一状态下的确定动作a=π(s)
◼ 随机策略:以概率来描述,即某一状态下执行 这一动作的概率:π(a|s)=P[At=a | St=s]。

策略有两种
 把用来指导个体产生与环境进行实际交互行 为的策略称为:行为策略;
◼ 实际采样的策略
 把用来评价状态或行为价值的策略(或者待优化的策略)称为:目标策略

强化学习的学习过程
 RL采用的是边获得样例边学习的方式
◼ 在获得样例之后更新自己的模型,
◼ 利用当前的模型来指导下一步的行动,
◼ 下一步的行动获得reward之后再更新模型, ◼ 不断迭代重复直到模型收敛。
 在这个过程中,非常重要的一点在于“在已 有当前模型的情况下,如果选择下一步的行 动才对完善当前的模型最有利”。