一起读论文|PeerRead:挖掘同行评审意见的价值

导读：今天分享一篇来自CMU、艾伦AI研究院和华盛顿大学合作的论文[1]，聚焦在科学文献发表过程中的同行评审机制的研究工作。作者公开了一份研究数据集，详细阐述了数据收集过程，对其做了一些统计分析，更重要的是为其引入了两个NLP任务并公开了基准模型及实验结果。他们还探讨了一些基于该数据集上进行的可能的NLP应用。内容充实，分析全面。

同行评审（Peer Reviewing）在科学文献发表的过程中发挥着非常重要的作用。那么，我们能够从同行评审意见中挖掘出哪些有价值的信息？本文发布了第一份用于研究目的的NLP领域科学文献的同行评审意见数据集——PeerRead[2]。该数据集包括了从ACL、NIPS、ICLR、CoNLL等NLP领域会议收集的约10.7K条往年的同行评审意见，还包括了投稿在这些会议上的以及发表在arXiv上的公开预印版本的约14.7K份论文稿件。数据集的基本信息如下表所示：

一起读论文|PeerRead:挖掘同行评审意见的价值

研究动机

对于同行评审过程，已经有研究人员对其不同方面进行了研究，包括评审意见的一致性与偏见、作者回复以及评审质量。但是，截止目前，仍然缺乏一些量化同行评审的研究，这对如程序主席、期刊编辑等人员做出决定非常重要。因此，这篇论文的目的在于通过发布一份同行审稿意见数据集——PeerRead来减少同行评审研究的障碍。

实验一：数据驱动的同行评审量化分析

作者详细叙述了数据集的收集和标注过程，并作了一些统计分析：

1. Overall recommendation vs. aspect score

评审专家一般会对论文是否能够被接收进行评分，这个分数表达了审稿人对这篇论文的总体看法。那么，评审专家的总体推荐意见主要跟论文的哪些方面密切相关呢？作者分析了ACL 2017的论文的多个方面与总体推荐意见之间的成对的相关性系数（Pair-wise correlation），结果如下：

一起读论文|PeerRead:挖掘同行评审意见的价值

数据表明对总体意见影响最大的方面是substance，即论文的工作量而不是质量。影响最小的是soundness/correctness与originality。作者说这些观察结果可能会引起人们对于论文评估最关心哪些方面的讨论。

2. Oral vs. poster

审稿专家需要对论文被接收为Oral还是poster形式作出推荐。那么，推荐Oral还是poster跟哪些方面密切相关呢？作者分别计算了Oral和Poster两种形式的审稿意见中的Aspect分数的平均分和标准差。结果如下：一起读论文|PeerRead:挖掘同行评审意见的价值

数据表明审稿专家倾向于把更加全面的稿件推荐为Oral展示形式。

3. ACL 2017 vs. ICLR 2017

作者继续分析了ACL 2017和ICLR 2017这两个会议在审稿意见长度及稿件不同方面的分数的均值及标准差的情况，结果如下：一起读论文|PeerRead:挖掘同行评审意见的价值

数据表明1) ACL的审稿意见比ICLR的要长将近50%；2) ICLR的Appropriateness均值比ACL要低，说明ICLR 2017吸引了更多不太有意义的稿件，这可能是由于人工标注和审稿专家评判的行为差异有关。

实验二：两个NLP任务

除了对PeerRead数据集进行量化分析之外，作者还引入了两种NLP任务并报告了它们在该数据集上的实验结果。这两个任务不仅十分具有挑战性，而且还具有潜在的应用价值。

1. Paper Acceptance Classification

这个任务是个二分类任务，给定一篇稿件，预测它是否被接收。考虑到模型的可解释性，作者并没有选择神经网络模型进行实验，而是选择了Logistic Regression，线性核或RBF核的SVM，随机森林，近邻算法，决策树，多层感知器，AdaBoost和朴素贝叶斯。

作者定义了22粗粒度的特征，比如标题长度、摘要是否包含诸如deep、neural等的行业术语，以及一些词法特征。详细的特征列表如下：一起读论文|PeerRead:挖掘同行评审意见的价值

在ICLR和arXiv的三个子类cs.cl, cs.lg, cs.ai上的分类准确率情况如下表所示：一起读论文|PeerRead:挖掘同行评审意见的价值

作者还分析了每种特征对稿件是否能被接收的重要性，通过移除每个特征来显示它对分类准确率的影响（增加还是减少）。为了简化分析，作者在arXiv所有子类数据集上只训练了一个模型。相关的实验结果如下：一起读论文|PeerRead:挖掘同行评审意见的价值

从实验结果可以看出，对分类结果有更大贡献的特征有：有附录、有许多定理或公式、在引用之前的文本的平均长度、在本篇论文提交日期前5年内发表的本论文引用的论文的数量、是否摘要包含"state of the art"或"neural"以及标题平均长度。

2. Review Aspect Prediction

审稿人一般会对稿件的几个方面进行评分（5分制），比如clarity，originality，substance等。从每个方面的评分情况可以看出一篇稿件的质量，包括其优势和不足，这对于编辑或程序主席做出录用决定起到关键作用。可以把这个任务看做是一个多类别的回归预测任务。

这个任务采用了ACL 2017和ICLR 2017两个会议的数据，其中，因为ICLR 2017没有提供各个方面的评分，作者对约1.3K条审稿意见进行了人工标注（在不读原始稿件的情况下根据对应的审稿意见对稿件的各个方面做出评分）。

作者使用了三种神经网络模型进行实验：CNN、LSTM以及Deep Averaging Networks，以及三种模型输入形式：（1）只用稿件前1000个字；（2）只用审稿意见前200个字；（3）两者拼接起来。从稿件的八个方面进行评分的回归预测实验，结果如下：一起读论文|PeerRead:挖掘同行评审意见的价值

结论

作者发布PeerRead数据集，并引入了两个可能的基于这个数据集的NLP任务，一方面，作者希望能够激励其他感兴趣的研究人员开发出更好的模型来分析它们；另一方面，作者也希望其他研究人员在这个数据集之上能够进行更多的富有创新的他们尚未进行的探索，比如研究稿件接收或拒绝是否反映了作者的人口统计学上的偏见（如国籍）。

参考资料

[1] PeerRead Paper: https://www.aclweb.org/anthology/N18-1149.pdf

[2] PeerRead GitHub: https://github.com/allenai/PeerRead

一起读论文|PeerRead:挖掘同行评审意见的价值

研究动机

实验一：数据驱动的同行评审量化分析

1. Overall recommendation vs. aspect score

2. Oral vs. poster

3. ACL 2017 vs. ICLR 2017

实验二：两个NLP任务

1. Paper Acceptance Classification

2. Review Aspect Prediction

结论

参考资料

相关推荐