Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition 论文笔记

Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition

DARTS : Differentiable Architecture Search

Abstract

strong baselines是什么?

Introduction

DARTS将搜索空间松弛到连续的领域,并使梯度下降直接适用于搜索。这使得搜索过程比基于RL的搜索过程快几个数量级。

DARTS将网络表示为给定一个computation cell的有向无环图。结点之间的边执行预设操作,把尾部的输入转换为头部的输出。DARTS使用softmax来松弛边的明确选择来进行软决策,然后使用标准梯度下降法对图进行优化。通过在softmax中选择权重最大的边来推断优化网络。
Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition 论文笔记

I-DARTS : improvement of DARTS

I-DARTS考虑两个节点间的多条边。

The Method

选择RNN对序列生成和标记问题进行建模,给定输入向量{x1,,xL}\{x_1,\dots,x_L\},重复利用RNN的cell生成输出{h1,,hL}\{h_1,\dots,h_L\}。RNN的cell定义为ht=g(xt,ht1)h_t = g(x_t,h_{t-1})tt是时间步长,g(,)g(·,·)是cell的function。NAS的目标是自动搜索好的g(,)g(·,·)

1 Architecture Search Space

g(,)g(·,·)是由N个结点和其中的边组成的DAG。结点对(i,j)(i,j)之间的边oi,j()o^{i,j}(·)表示从jjii的**函数。结点ii来自,对先前结点(j<i)(j < i)的向量求和,然后进行带有参数矩阵WiW_i的线性变换。用sis_i表示结点ii的状态。
si=j<ioi,j(sj,Wj)(1) s_i = \sum_{j<i}o^{i,j}(s_j,W_j) \tag{1}

2 Improved DARTS

边的最佳的选择是在验证集上精度最高的边。在I-DARTS中,采用松弛的方式执行此操作,重新定sis_i
si=j<ikαki,joki,j(sjWj)(2) s_i = \sum _{j<i}\sum_k \alpha_k^{i,j}·o_k^{i,j}(s_j·W_j) \tag{2}
αki,j\alpha_k^{i,j}oki,j()o_k^{i,j}(·)的权重。是通过结点iijj之间的边上的softmax归一化来计算的
αki,j=exp(wki,j)kexp(wki,j)(3) \alpha_k^{i,j} = \frac{\exp(w_k^{i,j})}{\sum_{k'}\exp(w_{k'}^{i,j})} \tag{3}
式(3)施加了越是,要求对每个jj的权重{αki,j}\{\alpha_k^{i,j}\}进行正则化。这样的模型通常会面临基于图的方法中的局部决策和偏差问题。此外,推理必须在较小的空间中执行,因为我们必须精确地推断每个节点对之间的一条边,并排除违反此约束的网络。

此处,为了去除约束和系统偏差,在结点ii的所有传入边上计算softmax归一化:
αki,j=exp(wki,j)j<ikexp(wki,j)(4) \alpha_k^{i,j} = \frac{\exp(w_k^{i,j})}{\sum_{j<i}\sum_{k'}\exp(w_{k'}^{i,j})} \tag{4}
为了推断出最佳架构,我们基本上会执行与DARTS中相同的操作。区别在于我们相对于αki,j\alpha_k^{i,j}选择top-n条边。在此,n是控制网络密度的超参数。例如,n=1n=1表示稀疏网络,而n=n = \infty表示包含所有这些边缘的非常密集的网络。

Experiments

1 Architecture Search

在PTB语料库上运行神经搜索。复制了(Pham et al., 2018; Liu et al., 2019)中的设置。循环单元由8个节点组成。每个边的候选操作集包含5个**函数,包括归零,tanh,relu,Sigmoid和Identity。要学习架构,我们将搜索系统运行40个训练时期,每批训练规模为256个。我们使用学习速率为20且权重衰减率为5e-7的SGD优化模型参数{Wi}\{W_i\},并使用学习率为3e-3且权重衰减率为1e-3的Adam优化了softmax松弛参数{wki,j}\{w_k^{i,j}\}。对于RNN模型,我们使用嵌入和隐藏层大小= 300的单层递归网络。在NVIDIA 1080Ti的单个GPU上学习架构需要四个小时。对于命名实体识别,我们选择CONLL-2003英语数据集。我们采用与语言建模相同的设置,但是学习率(0.1)和隐藏层大小(256)不同。在同一个GPU上学习架构需要花费4个小时。

2 Architecture Evaluation

首先,在语言建模任务上评估研究的架构。在此之前,我们对架构搜索中使用的相同数据进行训练。隐藏层的大小设置为850。我们使用平均SGD对模型进行3,000个时期的训练,学习率为20,权重衰减率为8e-7。为了进行公平的比较,我们不会在训练结束时对模型进行微调。

Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition 论文笔记

我们在来自CoNLL-2003共享任务的英语数据上,在命名的实体识别系统中测试学习的体系结构。在先前的工作之后,我们报告了测试集上5次跑步的平均F1得分。
Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition 论文笔记

Conclusions

通过消除softmax-local改进了DARTS,已解决偏差问题。该方法提高了搜索效率,并且发现了用于PTB语言建模和CoNLL命名实体识别(NER)任务的几种更好的体系结构。

,已解决偏差问题。该方法提高了搜索效率,并且发现了用于PTB语言建模和CoNLL命名实体识别(NER)任务的几种更好的体系结构。