ReasoNet: Learning to Stop Reading in Machine Comprehension读书笔记

multi-hop reasoning阅读理解,通过强化学习决定hop步数。

训练技巧:

    一般的baseline方法采用的是全局baseline,但是不同输入的hop步数不同,采用全局baseline没有区分。本文采用Constrastive Reward,对每个输入单独计算baseline,提高训练速度。

ReasoNet: Learning to Stop Reading in Machine Comprehension读书笔记