ReasoNet: Learning to Stop Reading in Machine Comprehension读书笔记

分类: 文章 • 2024-01-28 07:51:46

multi-hop reasoning阅读理解，通过强化学习决定hop步数。

训练技巧：

一般的baseline方法采用的是全局baseline，但是不同输入的hop步数不同，采用全局baseline没有区分。本文采用Constrastive Reward，对每个输入单独计算baseline，提高训练速度。