Contributions

先放贡献：最近谷歌发布的T5预训练模型在Glue，SuperGlue以及Squad任务上都超越了BERT，好不风光。在小编看来，它最主要的贡献是：

Text-to-Text Transfer Transformer (T5)

本文中作者做了很多实验，包括但不限于model structure，model architecture，pre-training objectives，datasets 等等。

Model：实验发现用标准的encoder-decoder结构在生成任务与分类任务上的表现都更好。模型采用标准的transformer，具体参数参考BERT base；由于是encoder-decoder结构因此参数数量是BERT base的两倍。
Training：训练模式是标准的maximum likelihood，loss是cross-entropy，优化方法是AdaFactor，解码机制是greedy decoding（而不是beam search）。
Vocabulary：用SentencePiece生成了一个大约32000大小的词表，由于翻译任务的存在因此词表中存在非英语单词。
Unsupervised Objective：采用了Denoising objective（BERT-styple）代替传统的language modeling objective。灵感来自BERT的mask方式，并在基础上作出改进：

Model structure：作者对三种预训练模型架构进行了比对，结果是Encoder-Decoder结构效果最好，如下图：
Encoder-Decoder型，即 Seq2Seq 常用模型，分成 Encoder 和 Decoder 两部分，对于 Encoder 部分，输入可以看到全体，之后结果输给 Decoder，而 Decoder 因为输出方式只能看到之前的。。
第二种，相当于上面的 Decoder 部分，当前时间步只能看到之前时间步信息，典型代表是GPT2。
第三种，Prefix LM型，可看作是上面 Encoder 和 Decoder 的融合体，一部分如 Encoder 一样能看到全体信息，一部分如 Decoder 一样只能看到过去信息。
以上三种结构都是有Transformer构成，主要的区别是注意力机制的不同：
三种架构在不同任务上的结果展示如下，由于Encoder-Decoder结构效果最好，因此T5的模型结构即选为由Transformer组成的Encoder-Decoder模型：

数据：1. C4完整数据由于数据来源众多，导致在一些领域内的下游任务的表现不如C4细分下的领域内的预训练数据表现好；2. 不同数据量对比，发现当数据少时模型会记住数据所以之后表现会差，因此数据越多模型预训练效果越好。
训练策略：
Fine-tuning methods：主要比较了两种方法，adapter layer和gradual unfreezing。adapter layer的参数量是跟fine-tuning tasks的数据规模正相关的。如果能仔细调调参数，其实还是更新所有参数表现最好。
Multi-task learning：单纯用multi task learning不如pre-train-then-fine-tune效果好。
Combining multi-task learning with fine-tuning：效果不如Unsupervised pre-training+ Fine-tuning。
Scaling：更长的训练时间和更大的模型会带来更好的结果。

The inconvenience of large models：谷歌说：“我们也知道大模型表现好，但是一味把事情搞大不行，建议看看distillation、parameter sharing和conditional computation。”
More efficient knowledge extraction：我们需要一个更有效的方法来学到通用的知识，BERT-style loss的效率也许不是最优解。
Formalizing the similarity between tasks：我们需要一个衡量pre-training和下游任务相似性的方法 so that we could make more principled choices about what source of unlabeled data to use.
Language-agnostic models：English-only pre-training没能在翻译任务上达到SOTA的表现（因为没有Beam Search？），说明单一语言还是有局限性。