Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition 论文笔记
Improved Differentiable Architecture Search for Language Modeling and Named Entity Recognition
DARTS : Differentiable Architecture Search
Abstract
strong baselines是什么?
Introduction
DARTS将搜索空间松弛到连续的领域,并使梯度下降直接适用于搜索。这使得搜索过程比基于RL的搜索过程快几个数量级。
DARTS将网络表示为给定一个computation cell的有向无环图。结点之间的边执行预设操作,把尾部的输入转换为头部的输出。DARTS使用softmax来松弛边的明确选择来进行软决策,然后使用标准梯度下降法对图进行优化。通过在softmax中选择权重最大的边来推断优化网络。
I-DARTS : improvement of DARTS
I-DARTS考虑两个节点间的多条边。
The Method
选择RNN对序列生成和标记问题进行建模,给定输入向量,重复利用RNN的cell生成输出。RNN的cell定义为,是时间步长,是cell的function。NAS的目标是自动搜索好的。
1 Architecture Search Space
是由N个结点和其中的边组成的DAG。结点对之间的边表示从到的**函数。结点来自,对先前结点的向量求和,然后进行带有参数矩阵的线性变换。用表示结点的状态。
2 Improved DARTS
边的最佳的选择是在验证集上精度最高的边。在I-DARTS中,采用松弛的方式执行此操作,重新定为
是的权重。是通过结点和之间的边上的softmax归一化来计算的
式(3)施加了越是,要求对每个的权重进行正则化。这样的模型通常会面临基于图的方法中的局部决策和偏差问题。此外,推理必须在较小的空间中执行,因为我们必须精确地推断每个节点对之间的一条边,并排除违反此约束的网络。
此处,为了去除约束和系统偏差,在结点的所有传入边上计算softmax归一化:
为了推断出最佳架构,我们基本上会执行与DARTS中相同的操作。区别在于我们相对于选择top-n条边。在此,n是控制网络密度的超参数。例如,表示稀疏网络,而表示包含所有这些边缘的非常密集的网络。
Experiments
1 Architecture Search
在PTB语料库上运行神经搜索。复制了(Pham et al., 2018; Liu et al., 2019)中的设置。循环单元由8个节点组成。每个边的候选操作集包含5个**函数,包括归零,tanh,relu,Sigmoid和Identity。要学习架构,我们将搜索系统运行40个训练时期,每批训练规模为256个。我们使用学习速率为20且权重衰减率为5e-7的SGD优化模型参数,并使用学习率为3e-3且权重衰减率为1e-3的Adam优化了softmax松弛参数。对于RNN模型,我们使用嵌入和隐藏层大小= 300的单层递归网络。在NVIDIA 1080Ti的单个GPU上学习架构需要四个小时。对于命名实体识别,我们选择CONLL-2003英语数据集。我们采用与语言建模相同的设置,但是学习率(0.1)和隐藏层大小(256)不同。在同一个GPU上学习架构需要花费4个小时。
2 Architecture Evaluation
首先,在语言建模任务上评估研究的架构。在此之前,我们对架构搜索中使用的相同数据进行训练。隐藏层的大小设置为850。我们使用平均SGD对模型进行3,000个时期的训练,学习率为20,权重衰减率为8e-7。为了进行公平的比较,我们不会在训练结束时对模型进行微调。
我们在来自CoNLL-2003共享任务的英语数据上,在命名的实体识别系统中测试学习的体系结构。在先前的工作之后,我们报告了测试集上5次跑步的平均F1得分。
Conclusions
通过消除softmax-local改进了DARTS,已解决偏差问题。该方法提高了搜索效率,并且发现了用于PTB语言建模和CoNLL命名实体识别(NER)任务的几种更好的体系结构。
,已解决偏差问题。该方法提高了搜索效率,并且发现了用于PTB语言建模和CoNLL命名实体识别(NER)任务的几种更好的体系结构。