论文阅读笔记《Meta-Learning with Temporal Convolutions》

核心思想

本文采用元学习的方式解决小样本学习问题，本文提出的算法是对任务不限制的，因此可以在分类、回归和强化学习等多个领域使用；其次本文是对序列输入做处理，但是却没有采用常见的RNN结构，而是基于时间卷积（Temporal Convolution）同时感知当前时刻的输入和之前所有时刻的输入，得到输出结果。作者认为传统的RNN结构只能通过隐藏层沿着时间前向传递信息，这种时间上的线性依赖限制了网络的能力，使其不能够在输入流上采用更加灵活的计算方式。相比于RNN，时间卷积结构能够更加直接地，更高带宽地接触到过去的信息，并使他们能够在一个固定的时间范围内采取更加灵活地计算。但由于时间卷积，是在时间维度上做带有空洞的一维卷积，而且随着层级加深，空洞率是呈指数速度增长的（1,2,4,8），因此模型只能更粗略地访问之前的输入（可以类比二维空洞卷积中，感受野中间出现空洞的部分）。为了缓解这个问题，作者引入一种轻权重的注意力机制（Lightweight Attention Mechanism），这使得网络能够在所有先前的输入中精确地选择特定的信息。
论文阅读笔记《Meta-Learning with Temporal Convolutions》
上图展示了本文提出的网络TCML的结构，左图表示用于监督学习任务（分类和回归），其输入是一个序列，包括先前时刻的输入 $x_{t-i}$ 和对应的标签 $y_{t-i}$ ，以及当前时刻的输入 $x_{t}$ ，输出当前时刻图像的标签 $\hat{y}_t$ ，如果输入 $x_{t}$ 不是一维的（如二维的图片），则利用一个嵌入式网络将其转化为一维的特征向量。对于图像分类任务而言，该模型就是需要评估当前输入 $x_{t}$ 和先前输入 $x_{t-i}$ 之间的相似性，然后根据先前输入对应的标签 $y_{t-i}$ ，来预测当前输入的标签 $\hat{y}_t$ 。右图表示用于强化学习任务，其输入包含了先前时刻的状态 $x_{t-i}$ ，动作 $a_{t-i}$ ，回报 $r_{t-i}$ 和当前时刻的状态 $x_t$ ，输出是当前时刻的动作 $a_t$ 。
那么网络是如何得到当前输入和先前输入之间的相关性的呢？这就用到了我们先前提到的轻权重的注意力机制。设 $\left \{s_1,...,s_t\right \}$ 表示每个时刻时间卷积网络输出的**向量，每个向量长度为 $d$ ，将前 $t-1$ 个向量级联起来构成一个键矩阵 $K$ （Key Matrix），其大小为 $d \times (t-1)$ ；值矩阵 $V$ （Value Matrix）则是 $K$ 经过 $d \times d'$ 线性层得到的，其大小为 $d' \times (t-1)$ ；查询向量 $q$ 是由 $s_t$ 经过一个简单的前向网络得到的，则注意力机制的输出为：
论文阅读笔记《Meta-Learning with Temporal Convolutions》
其中 $\frac{q^TK}{\sqrt{d}}$ 类似计算一个向量之间的内积距离，再利用softmax函数转化为权重值，最后将权重赋予前 $t-1$ 个时刻的输入上，这样就获得了当前时刻的输入与先前时刻输入之间的联系。

实现过程

网络结构

因为本文提出的模型是对任务无限制的，因此网络结构也没有固定要求，下面仅介绍用于分类任务的网络结构。
论文阅读笔记《Meta-Learning with Temporal Convolutions》
图(a)表示的是一个残差块，是该网络的一个基本组成部分，其是由一个带有空洞的因果卷积（时间卷积）和跳跃连接构成的；图(b)表示的是一个稠密块，由两个残差块和一个空洞因果卷积构成；图©则是整个TCML网络的结构，输入的序列向量经过14个稠密块多次卷积之后，进入轻权重的注意力模块，最后再经过一个1 * 1的卷积和softmax层输出预测结果。

损失函数

分类任务采用简单的交叉熵损失函数。

算法推广

本文提出的网络也可应用于强化学习任务，作者对于多臂*（Multi-Armed Bandits）进行了实验，也取得了有竞争力的结果。

创新点

利用时间卷积，同时处理多个时刻的序列输入，实现了小样本学习任务
引入轻权重的注意力机制，寻找当前时刻输入和先前时刻输入之间的关系，并据此预测当前时刻的输出

算法评价

同样是处理序列输入，本文没有采用RNN结构利用隐藏层隐式的记住先前的输入信息，也没有采用外部的记忆模块，保存先前获取的特征信息，而是利用时间卷积的形式，允许其在预测当前输入对应的标签时，同时观察先前多个时刻输入以及标签。其采用的轻权重注意力机制则更加直接的捕捉了当前输入和先前输入之间的关系，且这种方式的效果要比直接采用余弦距离或者欧氏距离的度量方式更好。实验表明，在多个任务中本文提出的算法都取得了非常有竞争力的结果。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。论文阅读笔记《Meta-Learning with Temporal Convolutions》