我已经有两年 ML 经历，这系列课主要用来查缺补漏，会记录一些细节的、自己不知道的东西。

关于强化学习，我专门花半年时间学习实践过，因此这里笔记只记录李老师的 outline 。我的强化学习资源仓库：
https://github.com/PiperLiu/Reinforcement-Learning-practice-zh
我的 CSDN 强化学习博客集合：
https://blog.csdn.net/weixin_42815609/category_9592110.html

本节内容综述

本节课是 B 站集合的最后一节课，由助教 林义圣 讲解。介绍些 RL 的新技术。
强化学习有许多难题：探索与开发间的平衡、采样效率。
首先介绍 Model-based RL 。其中讨论了 Alpha 系列（基于蒙特卡洛树搜索），以及 Dream to Control 。
接着，介绍了 Meta-RL 。
接下来讲一讲 Priors ，从之前学过的东西中抽取中有用的知识。
Multi-agent RL 。

Model-based RL

AlphaGo to AlphaZero, MuZero
Dream to Control
Automatic Domain Randomization

Meta-RL
Prior

Goal-agnostic Prior Policy
Learn from Experts

Multi-agent RL

MADDPG
Social Influence as Intrinsic Motivation

AlphaStar

小细节

Model-based RL

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
从经验中学习一个 Model ，然后从 Model 上仿真学习。

AlphaGo to AlphaZero, MuZero

AlphaGo -> AlphaGo Zero -> AlphaZero -> MuZero

AlphaGo 可以理解为“很厉害的树搜索”，但是需要 pre-training 。

AlphaZero 不需要 pre-training ，在自我对弈时就引入蒙特卡洛树搜索。

MuZero 则可以自己学习环境模型。
【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
如上，有三个网络，分工为：

把环境抽象为某一状态空间（h）；
如何在这状态空间进行状态转换（a）；
使用什么动作最优（f）。

Dream to Control

这篇文章则没有使用蒙特卡洛树搜索。
【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
完全去学习环境的建模，然后完全在自己想象的模型上去学习。

Automatic Domain Randomization

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
OpenAI 为了训练机械手臂，在自己建模中，加入了大量干扰信号，以让其在真实世界能够完成任务。

Meta-RL

$a_{t} \sim \pi_{\theta}\left(s_{t}\right) \longleftrightarrow a_{t} \sim \pi_{\theta}\left(a_{t-1}, r_{t-1}, s_{t}\right)$

如上，Meta-RL 还要输入过去的信息。

可以用 Meta-RL 学习 RL 的超参数、Loss Functions 、Exploration Strategies 。

Prior

To obtain effective and fast-adapting agents, the agent can rely upon previously distilled knowledge in the form of a prior distribution.

The following two papers propose two distinct ways:

Simultaneous learning of a goal-agnostic default policy
Learning a dense embedding space to represent a large set of expert behaviors

Goal-agnostic Prior Policy

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
如上，两个网络，给第二个网络部分状态信息（比如没有目标位置，只有机器人身体姿势），然后其输出用 KL 与正常网络输出拉近。这样，第二个网络可以学到比较泛化的、与目标无关的特征。

Learn from Experts

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
比如机器人要学习人的后空翻，那先给机器人看专家的动作，让其学习。此外，还有很多细节，具体需要见原文。

Multi-agent RL

这是一个很复杂的问题。

也有很多可研究的思路。

MADDPG

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
如上，把别人的状态也输入到自己的状态中来。

Social Influence as Intrinsic Motivation

A mechanism for achieving coordination in multi-agent RL through rewarding agents for having causal Influence over other agents actions.

Actions that lead to bigger changes in other agents behavior are considered influential and are rewarded.
Influence is assessed using counterfactual reasoning.

in agent’s immediate reward is modified:

environmental reward + causal influence reward

$\begin{aligned} c_{k} &=\sum_{j=0, j \neq k}^{N} D_{\kappa_{L}}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| \sum_{\dot{a}_{k}} p\left(a_{j} \mid \tilde{a}_{k}, s_{j}\right) p\left(\tilde{a}_{k} \mid s_{j}\right)\right] \\ &=\sum_{j=0, j \neq k}^{N} D_{\kappa L}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| p\left(a_{j} \mid s_{j}\right)\right] \end{aligned}$

AlphaStar

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
如上，左部先从人类经验中学习。在最顶上的一条，进行自我对弈。

但是，它把进化中的历史“自我”也存储起来，用来与自己对弈，防止进化方向错误。

此外，还保存了一些过去打败自己的“自己”，然后也用于与自己对弈。

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha