日常论文分享---持续更新中

日常充电是必须的,每天进步一点点,下面是从日常关注的博主啦公众号啦看过的一些论文,分享分享!!

(1) Self-training Improves Pre-training for Natural Language Understanding

原文:https://arxiv.org/pdf/2010.02194.pdf

更详细的解析:https://zhuanlan.zhihu.com/p/268770394?utm_source=wechat_session&utm_medium=social&s_r=0

以bert为代表的Pretrain预训练大放异彩,self-train自训练就多少有点黯然失色。

两者区别

日常论文分享---持续更新中

改论文将两则进行了结合,先用一个pre-train模型去在少量标签数据上面进行train得到teacher模型,然后再用其给大量无标注数据进行打标,得到大量伪标注数据,依次训练student模型,依次为最终上线模型。注意看其区别:

和传统自训练的区别是              :在训练teacher阶段是用了一些pretrain 模型(例如论文中用了roberta)热启的,即融合了pretrain思想

和bert代表的预训练模型区别是 :bert利用大量无标签数据在前,即先预训练后用小量标签数据,这里是用大量无标签数据在后,即先用小标签数据训练,然后对大量无标签打标,以此进行有监督训练student

论文提出的总体框架

日常论文分享---持续更新中

比较吸引一点的还有step2:其不是一股脑的用所有数据,而是抽取和当前领域比较相近的语料,方法就是通过句子编码得到任务编码做余弦相似度。

这里就挑一个实验结果来看看

日常论文分享---持续更新中

基线是robera,icp是在step2抽取出来的大量领域内的数据集D上面进行预训练的方法,ST是本文的提出的方法

可以看到icp还不如原来的基线呢,说明没有伪标注数据,单纯的预训练不能很好地实现领域知识迁移,还要借助标注数据。

更多细节看论文吧