2019年伯克利大学 CS294-112《深度强化学习》第2讲:监督学习和模仿学习(笔记)

2019年伯克利大学 CS294-112《深度强化学习》第2讲:监督学习和模仿学习(笔记)
2019年伯克利大学 CS294-112《深度强化学习》第2讲:监督学习和模仿学习(笔记)今天的课程中,我们将讨论模仿学习。我们首先来讲序列决策问题的定义。我们将从一般的监督学习讲到序列决策。我们将会讲解如何设定一个模仿学习问题?它本质上是对决策问题的监督学习。我们将会讨论直接模仿是否有效?它何时有效何时无效?以及我们如何使它能更频繁地有效等等。作为总结,我们将会讲解最近的相关工作,关于深度模仿学习、使用模仿学习来从图片中学习技能。最后如我们有足够的时间,我们将稍微讲解一下理论知识,分析一下某些模仿学习方法,然后我们将讨论模仿学习中缺少的东西,并驱使我们也去看看使用强化学习奖励函数的自动决策,这部分内容将会在下周开始讲解。所以今天课程的目标是理解定义和标记,理解基本的模仿学习算法包括行为复制和DAgger算法,它们将会在作业1中用到,并理解它们的优劣以及在何种场景下一种方法会比另一种合适,以及你可能会遇到的失败的模式,在你在实际中使用这些方法的时候。
2019年伯克利大学 CS294-112《深度强化学习》第2讲:监督学习和模仿学习(笔记)
好了我们开始讲解一些术语和记号。在这张幻灯片上有一个监督学习问题的解析,但这里使用了一些我们将会在强化学习中用到的符号。在一个监督学习任务中,假设一个图像识别任务,如果输入某种图片,然后获得某种你关心的输出。在这种情况下,输入包含了一张图片中的全部像素,输出是一个随机的分类值。在这个例子中输出是图像中物体的标签,所以你获得了一些像素,而你并不知道这些像素(组成的图片)到底是什么?它只是一个巨大的数组,然后你的任务是找出这张图片中的是一只老虎还是一个虎猫,还是一只美洲虎或山猫或别的什么类别。在幻灯片的中间,从左连到右的模型是你们将要学习的,所以在这个情境中,模型是去参数化一个概率分布的某种方法。它是一个条件概率分布,它根据输入也就是图像来决定输出,输出是一个分布,在这个场景中是在类别数值上的分布,所以我们需要将一些符号附加上去。我们将输入记为o代表观察Observation,这是你实际上观察到的信息。我们将输出记为a代表行为Action,在这个场景中是一个随机的分类值,它可以取一个1到n的值,而n是可能的图像标签数。我们将要学习的这个分布,我们将它叫做π,π是一个在o上的条件分布,它的分布有一些参数,我们记为θ。所以在这门课程的其他部分,如果你看到θ,它就表示某个参数化的分布中的参数。我们可以选择许多不同方法来参数化这个分布,所以举例来说,在观察中使用线性模型

待续…