人工智能-强化学习(1)

一、简介

在本节中，我们将学习强化学习（Rl）的基础知识，它是机器学习的一个分支，涉及采取一系列动作以使报酬最大化。RL基本上对环境一无所知，而是通过探索环境来学习如何做。它使用动作，并接收状态和奖励。该代理只能通过操作来更改您的环境。R1的最大困难之一是某些动作需要时间来创造奖励，而学习这种动态可能具有挑战性。同样，环境所获得的回报与上一个动作无关，而与过去的动作有关。

二、强化学习

在这里，我们不知道哪些动作会产生奖励，我们也不知道何时动作会产生奖励，有时您执行的动作会花费时间才能产生奖励。基本上，所有知识都是通过与环境的交互来学习的。
人工智能-强化学习(1)

强化学习有一个称为“深度强化学习”的变体，您可以在其中使用神经网络作为以下函数的近似函数：
策略（在处于特定状态时选择下一个操作）
价值函数（衡量一个状态或状态-动作对现在的状态）
整个模型/世界动态，因此您可以预测下一个状态和奖励。
在我们的思想中，我们仍然认为存在一个马尔可夫决策过程（MDP），该过程具有：
人工智能-强化学习(1)

我们正在寻找一项政策，这意味着可以为每个州提供最佳行动的地图，唯一的问题是我们现在没有显式的或，因此我们不知道哪些状态是好的或动作是什么。学习这些东西的唯一方法就是尝试它们并向我们的样本学习。在强化学习中，我们知道我们可以快速或缓慢地移动（动作），而无论我们是冷，热还是过热（状态）。但是我们不知道我们的行动如何改变状态。
人工智能-强化学习(1)

离线（MDP）与在线（RL）：
另一个区别是，当使用普通的MDP规划代理时，可以通过搜索和模拟（规划）来找到最佳解决方案。 Rl代理从反复试验中学习，因此在知道它不应该做之前会做一些坏事。另外，要了解某物确实是好是坏，代理商会重复很多次。
人工智能-强化学习(1)

怎么运行的：
我们将学习行为的大致含义以及通过经验获得的回报。例如，我们可以随机执行操作。

后期奖励
我们会随着时间的流逝给予一些折扣奖励，从而迫使MDP尽快获得良好的奖励。基本上，可以随着时间的流逝赋予更多负值，从而调节代理人仓促行动的方式。同时还可以通过指定代理拥有的时间来更改代理的行为。
人工智能-强化学习(1)

人工智能-强化学习(1)

相关推荐