ALBERT 思想简介

前段时间简单看了下 ALBERT 的paper(ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS)，简单记录下论文的思想，穿插一点点个人想法。

1 背景

1.1 从BERT以来，NLP的预训练模型变得越来越大，占用的 GPU/TPU显存越来越高。

记得XLNET出来的时候，其各个效果提升因素(引入PLM，引入Transformer-XL的主要思路，增加预训练阶段使用的数据规模)中，经过分析，估计训练数据量的增加带来的提升，在阅读理解任务中的作用占比为30%-40%. 模型朝着更多的训练数据，更深的层数，更大的模型参数方向发展,相应的对硬件的要求也越来越高。

1.2 预训练的时间变得越来越长

1.3 意料之外的模型退化

这里论文中举了个栗子，在 BERT-large 中，当把 Hidden Size从1024 升到 2048时，模型在RACE 任务(阅读理解数据集)上的准确率却大幅下降，从72.0%到54.3%，说明并不是模型越大越好。

ALBERT 思想简介

2 目的

因此想法就比较简单了，现在模型变得越来越大，需要的硬件资源越来越多，那能不能缩减一下模型的参数量？

当然了，也不能不关注模型的效果，能够在模型参数量大幅缩减的情况下，还让模型的效果稳定或者有提升呢？

模型做出的改进的目的基本上围绕以上2点。

3 ALBERT的做法

3.1 嵌入向量参数的因式分解

在ALBERT中，对embedding参数进行因式分解，将其分解成2个更小的矩阵。通过分解，我们将 embedding参数从 O(V*H) 减少到 O(V*E+E*H)，这个参数减少在 H>>E 的时候有重要意义。

ALBERT 思想简介

3.2 跨层参数共享

很直观的，跨层参数共享可以减少模型参数。

跨层参数共享可以分别3个模式，只共享attention相关参数，只共享FFN相关参数，和共享所有参数。

all-shared 之后，ALBERT-BASE的参数量，直接从 89M到12M了，毕竟这个策略就相当于把12个完全相同的层摞起来了。

ALBERT 思想简介

从最后一列来看，如果只共享attention参数，不仅可以降低模型参数，还可以保持模型性能不掉。

不过能看出，只共享attention参数，对模型参数量的降低的量有些少。作者为了追求轻量级，把FFN也共享了。

但是这样虽然减少了参数量，但是模型的效果指标是明显的掉了，因此要加上其他工作来把模型指标提上去。

问题来了，以上2个减参数的方法谁作用大呢？

ALBERT 思想简介

通过以上2个图，可以明显的看出，跨层参数共享对于模型参数量的缩减所用比嵌入参数因式分解的作用大得多。

对比下图中，ALBERT base not-shared 的E为768 和 E为128时候，模型的参数量为 108M 和 89M,参数的减少量为 19M。

而对比下上图中Embedding 大小为128 的ALBERT 和 Embedding大小为768的BERT，在加了参数共享之后，参数量降低有 96M，相比与原参数量108M，大量的参数量降低为跨层参数共享的左右。

3.3 句间连贯性损失 SOP

BERT中除了使用MLM loss以外，还使用了 NSP损失。然后后续的研究发现，NSP的影响并不可靠并且决定去掉它，这个观点也得到了后续的任务数据所证明。

NSP是预测两个片段在原文中是否连续出现的二分类损失，具体如下:从训练语料库中提取连续片段，生成正例;负面的例子是由来自不同文档的片段配对产生的;正、负样本的抽样概率相等。NSP的目标是为了提高下游任务的性能，比如自然语言推理，这需要对句子对之间的关系进行推理。

NSP的无效的主要原因是,和MLM相比,这个任务缺乏难度.NSP将主题预测和连贯性预测合并在一起,然而,topic预测相比连贯性预测简单,而且和使用MLM loss学习的内容有很多重叠.

SOP损失使用与BERT相同的技术作为正例(同一文档中的两个连续片段)，作为否定的例子使用相同的两个连续的句子，但顺序互换。这就迫使模型学习关于语篇级一致性属性的更细粒度的区别。

ALBERT 思想简介

如上图所示，NSP根本无法解决SOP任务(即它最终学习更容易的主题预测信号，并在SOP任务上执行随机基线水平)，而SOP可以在分析未对齐的相干线索的基础上，预先将NSP任务解决到一个合理的程度。看对下游任务的影响，ALBERT模型不断地改进多句编码任务的下游任务性能。

4 ALBERT 的效果

4.1 ALBERT在 GLUE上的表现

ALBERT 思想简介

4.2 ALBERT 在 SQuAD和RACE上的表现

ALBERT 思想简介

可以看到，在阅读理解任务RACE上，ALBERT的提升比较明显。从BERT的70%多，到 ALBERT的将近90%，可见现在对语义级别的任务，提升巨大。

5 总结

ALBERT的主要目的是为了缩减模型参数量。

具体做法包括:

嵌入参数的因式分解

跨层参数共享(对参数减少的作用最大)

NSP替换为SOP(模型效果的提升因素)

相关推荐