人工智能-强化学习(1)

一、简介

在本节中,我们将学习强化学习(Rl)的基础知识,它是机器学习的一个分支,涉及采取一系列动作以使报酬最大化。RL基本上对环境一无所知,而是通过探索环境来学习如何做。 它使用动作,并接收状态和奖励。 该代理只能通过操作来更改您的环境。R1的最大困难之一是某些动作需要时间来创造奖励,而学习这种动态可能具有挑战性。 同样,环境所获得的回报与上一个动作无关,而与过去的动作有关。

二、强化学习

在这里,我们不知道哪些动作会产生奖励,我们也不知道何时动作会产生奖励,有时您执行的动作会花费时间才能产生奖励。基本上,所有知识都是通过与环境的交互来学习的。
人工智能-强化学习(1)

强化学习有一个称为“深度强化学习”的变体,您可以在其中使用神经网络作为以下函数的近似函数:
策略(在处于特定状态时选择下一个操作)
价值函数(衡量一个状态或状态-动作对现在的状态)
整个模型/世界动态,因此您可以预测下一个状态和奖励。
在我们的思想中,我们仍然认为存在一个马尔可夫决策过程(MDP),该过程具有:
人工智能-强化学习(1)

我们正在寻找一项政策,这意味着可以为每个州提供最佳行动的地图,唯一的问题是我们现在没有显式的或,因此我们不知道哪些状态是好的或动作是什么。学习这些东西的唯一方法就是尝试它们并向我们的样本学习。在强化学习中,我们知道我们可以快速或缓慢地移动(动作),而无论我们是冷,热还是过热(状态)。 但是我们不知道我们的行动如何改变状态。
人工智能-强化学习(1)

离线(MDP)与在线(RL):
另一个区别是,当使用普通的MDP规划代理时,可以通过搜索和模拟(规划)来找到最佳解决方案。 Rl代理从反复试验中学习,因此在知道它不应该做之前会做一些坏事。 另外,要了解某物确实是好是坏,代理商会重复很多次。
人工智能-强化学习(1)

怎么运行的:
我们将学习行为的大致含义以及通过经验获得的回报。 例如,我们可以随机执行操作。

后期奖励
我们会随着时间的流逝给予一些折扣奖励,从而迫使MDP尽快获得良好的奖励。 基本上,可以随着时间的流逝赋予更多负值,从而调节代理人仓促行动的方式。同时还可以通过指定代理拥有的时间来更改代理的行为。
人工智能-强化学习(1)