Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition

DARTS : Differentiable Architecture Search

Abstract

strong baselines是什么？

Introduction

DARTS将搜索空间松弛到连续的领域，并使梯度下降直接适用于搜索。这使得搜索过程比基于RL的搜索过程快几个数量级。

DARTS将网络表示为给定一个computation cell的有向无环图。结点之间的边执行预设操作，把尾部的输入转换为头部的输出。DARTS使用softmax来松弛边的明确选择来进行软决策，然后使用标准梯度下降法对图进行优化。通过在softmax中选择权重最大的边来推断优化网络。
Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition 论文笔记

I-DARTS : improvement of DARTS

I-DARTS考虑两个节点间的多条边。

The Method

选择RNN对序列生成和标记问题进行建模，给定输入向量 $\{x_1,\dots,x_L\}$ ，重复利用RNN的cell生成输出 $\{h_1,\dots,h_L\}$ 。RNN的cell定义为 $h_t = g(x_t,h_{t-1})$ ， $t$ 是时间步长， $g(·,·)$ 是cell的function。NAS的目标是自动搜索好的 $g(·,·)$ 。

1 Architecture Search Space

$g(·,·)$ 是由N个结点和其中的边组成的DAG。结点对 $(i,j)$ 之间的边 $o^{i,j}(·)$ 表示从 $j$ 到 $i$ 的**函数。结点 $i$ 来自，对先前结点 $(j < i)$ 的向量求和，然后进行带有参数矩阵 $W_i$ 的线性变换。用 $s_i$ 表示结点 $i$ 的状态。
$s_i = \sum_{j<i}o^{i,j}(s_j,W_j) \tag{1}$

2 Improved DARTS

边的最佳的选择是在验证集上精度最高的边。在I-DARTS中，采用松弛的方式执行此操作，重新定 $s_i$ 为
$s_i = \sum _{j<i}\sum_k \alpha_k^{i,j}·o_k^{i,j}(s_j·W_j) \tag{2}$
$\alpha_k^{i,j}$ 是 $o_k^{i,j}(·)$ 的权重。是通过结点 $i$ 和 $j$ 之间的边上的softmax归一化来计算的
$\alpha_k^{i,j} = \frac{\exp(w_k^{i,j})}{\sum_{k'}\exp(w_{k'}^{i,j})} \tag{3}$
式（3）施加了越是，要求对每个 $j$ 的权重 $\{\alpha_k^{i,j}\}$ 进行正则化。这样的模型通常会面临基于图的方法中的局部决策和偏差问题。此外，推理必须在较小的空间中执行，因为我们必须精确地推断每个节点对之间的一条边，并排除违反此约束的网络。

此处，为了去除约束和系统偏差，在结点 $i$ 的所有传入边上计算softmax归一化：
$\alpha_k^{i,j} = \frac{\exp(w_k^{i,j})}{\sum_{j<i}\sum_{k'}\exp(w_{k'}^{i,j})} \tag{4}$
为了推断出最佳架构，我们基本上会执行与DARTS中相同的操作。区别在于我们相对于 $\alpha_k^{i,j}$ 选择top-n条边。在此，n是控制网络密度的超参数。例如， $n=1$ 表示稀疏网络，而 $n = \infty$ 表示包含所有这些边缘的非常密集的网络。

Experiments

1 Architecture Search

在PTB语料库上运行神经搜索。复制了(Pham et al., 2018; Liu et al., 2019)中的设置。循环单元由8个节点组成。每个边的候选操作集包含5个**函数，包括归零，tanh，relu，Sigmoid和Identity。要学习架构，我们将搜索系统运行40个训练时期，每批训练规模为256个。我们使用学习速率为20且权重衰减率为5e-7的SGD优化模型参数 $\{W_i\}$ ，并使用学习率为3e-3且权重衰减率为1e-3的Adam优化了softmax松弛参数 $\{w_k^{i,j}\}$ 。对于RNN模型，我们使用嵌入和隐藏层大小= 300的单层递归网络。在NVIDIA 1080Ti的单个GPU上学习架构需要四个小时。对于命名实体识别，我们选择CONLL-2003英语数据集。我们采用与语言建模相同的设置，但是学习率（0.1）和隐藏层大小（256）不同。在同一个GPU上学习架构需要花费4个小时。

2 Architecture Evaluation

首先，在语言建模任务上评估研究的架构。在此之前，我们对架构搜索中使用的相同数据进行训练。隐藏层的大小设置为850。我们使用平均SGD对模型进行3,000个时期的训练，学习率为20，权重衰减率为8e-7。为了进行公平的比较，我们不会在训练结束时对模型进行微调。

Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition 论文笔记

我们在来自CoNLL-2003共享任务的英语数据上，在命名的实体识别系统中测试学习的体系结构。在先前的工作之后，我们报告了测试集上5次跑步的平均F1得分。
Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition 论文笔记

Conclusions

通过消除softmax-local改进了DARTS，已解决偏差问题。该方法提高了搜索效率，并且发现了用于PTB语言建模和CoNLL命名实体识别（NER）任务的几种更好的体系结构。

，已解决偏差问题。该方法提高了搜索效率，并且发现了用于PTB语言建模和CoNLL命名实体识别（NER）任务的几种更好的体系结构。