【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha

我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。

关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline 。我的强化学习资源仓库:
https://github.com/PiperLiu/Reinforcement-Learning-practice-zh
我的 CSDN 强化学习博客集合:
https://blog.csdn.net/weixin_42815609/category_9592110.html

本节内容综述

  1. 本节课是 B 站集合的最后一节课,由助教 林义圣 讲解。介绍些 RL 的新技术。
  2. 强化学习有许多难题:探索与开发间的平衡、采样效率。
  3. 首先介绍 Model-based RL 。其中讨论了 Alpha 系列(基于蒙特卡洛树搜索),以及 Dream to Control 。
  4. 接着,介绍了 Meta-RL 。
  5. 接下来讲一讲 Priors ,从之前学过的东西中抽取中有用的知识。
  6. Multi-agent RL 。

小细节

Model-based RL

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
从经验中学习一个 Model ,然后从 Model 上仿真学习。

AlphaGo to AlphaZero, MuZero

AlphaGo -> AlphaGo Zero -> AlphaZero -> MuZero

AlphaGo 可以理解为“很厉害的树搜索”,但是需要 pre-training 。

AlphaZero 不需要 pre-training ,在自我对弈时就引入蒙特卡洛树搜索。

MuZero 则可以自己学习环境模型。
【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
如上,有三个网络,分工为:

  • 把环境抽象为某一状态空间(h);
  • 如何在这状态空间进行状态转换(a);
  • 使用什么动作最优(f)。

Dream to Control

这篇文章则没有使用蒙特卡洛树搜索。
【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
完全去学习环境的建模,然后完全在自己想象的模型上去学习。

Automatic Domain Randomization

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
OpenAI 为了训练机械手臂,在自己建模中,加入了大量干扰信号,以让其在真实世界能够完成任务。

Meta-RL

atπθ(st)atπθ(at1,rt1,st)a_{t} \sim \pi_{\theta}\left(s_{t}\right) \longleftrightarrow a_{t} \sim \pi_{\theta}\left(a_{t-1}, r_{t-1}, s_{t}\right)

如上,Meta-RL 还要输入过去的信息。

可以用 Meta-RL 学习 RL 的超参数、Loss Functions 、Exploration Strategies 。

Prior

To obtain effective and fast-adapting agents, the agent can rely upon previously distilled knowledge in the form of a prior distribution.

The following two papers propose two distinct ways:

  • Simultaneous learning of a goal-agnostic default policy
  • Learning a dense embedding space to represent a large set of expert behaviors

Goal-agnostic Prior Policy

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
如上,两个网络,给第二个网络部分状态信息(比如没有目标位置,只有机器人身体姿势),然后其输出用 KL 与正常网络输出拉近。这样,第二个网络可以学到比较泛化的、与目标无关的特征。

Learn from Experts

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
比如机器人要学习人的后空翻,那先给机器人看专家的动作,让其学习。此外,还有很多细节,具体需要见原文。

Multi-agent RL

这是一个很复杂的问题。

也有很多可研究的思路。

MADDPG

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
如上,把别人的状态也输入到自己的状态中来。

Social Influence as Intrinsic Motivation

A mechanism for achieving coordination in multi-agent RL through rewarding agents for having causal Influence over other agents actions.

  • Actions that lead to bigger changes in other agents behavior are considered influential and are rewarded.
  • Influence is assessed using counterfactual reasoning.

in agent’s immediate reward is modified:

  • environmental reward + causal influence reward

ck=j=0,jkNDκL[p(ajak,sj)a˙kp(aja~k,sj)p(a~ksj)]=j=0,jkNDκL[p(ajak,sj)p(ajsj)]\begin{aligned} c_{k} &=\sum_{j=0, j \neq k}^{N} D_{\kappa_{L}}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| \sum_{\dot{a}_{k}} p\left(a_{j} \mid \tilde{a}_{k}, s_{j}\right) p\left(\tilde{a}_{k} \mid s_{j}\right)\right] \\ &=\sum_{j=0, j \neq k}^{N} D_{\kappa L}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| p\left(a_{j} \mid s_{j}\right)\right] \end{aligned}

AlphaStar

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
如上,左部先从人类经验中学习。在最顶上的一条,进行自我对弈。

但是,它把进化中的历史“自我”也存储起来,用来与自己对弈,防止进化方向错误。

此外,还保存了一些过去打败自己的“自己”,然后也用于与自己对弈。