GLUE: 自然语言理解的标杆

官网: https://gluebenchmark.com/leaderboard

自然语言处理领域在各个子任务上都有相应的榜单和标杆数据集,但放眼望去,General Language Understanding Evaluation (GLUE) 又是其中最为突出和亮眼的。不仅是因为数据规范,体量庞大,更是因为它同时集合了多个子任务,全方位考验模型的能力。几乎所有近年来的大型预训练模型都以在 GLUE 上实现 SOTA 为目标,可见其权威性和领导力。

数据集 全称 领域 简介 体量
CoLA The Corpus of Linguistic Acceptability Single-sentence Classification 判断一个句子是否语法正确,二分类任务 10,657 sentences
SST-2 The Stanford Sentiment Treebank Single-sentence Classification 判断一条电影评论积极或消极,二分类任务 11,855 sentences
STS-B Semantic Textual Similarity Benchmark Text Similarity 使用 1~5 的整数来表示两个句子的语义相似度,既能看作回归任务,也能看作五分类任务 8,628 sentence pairs
QQP Quora Question Pairs) Pairwise Text Classsification 判断两个句子是否语义相同,二分类任务 > 400,000 sentence pairs
MRPC Microsoft Research Paraphrase Corpus Pairwise Text Classsification 判断两个句子是否语义相同,二分类任务 5,800 sentence pairs
RTE Recognizing Textual Entailment) Pairwise Text Classsification 判断两个句子是否能够推断/对齐,二分类任务 -
MNLI Multi-Genre Natural Language Inference Pairwise Text Classsification 判断两个句子语义上的 entailment/contradiction/neutral,三分类任务 433,000 sentence pairs
WNLI Winograd Natural Language Inference Pairwise Text Classsification 判断两个句子的语义相似性,二分类任务 635 sentence pairs
QNLI Question Natural Language Inference Relevance Ranking 前身是SQuAD1.0,给定问题,从给定的文段中挑选出包含答案的 Top 1 选项,二分类任务 >100,000 sentence pairs

墙内的朋友暂时没有办法查看榜单分布,在这里转载一下:(最近更新 2020/05/27)
GLUE: 自然语言理解的标杆
GLUE: 自然语言理解的标杆
GLUE: 自然语言理解的标杆
GLUE: 自然语言理解的标杆