ReasoNet: Learning to Stop Reading in Machine Comprehension读书笔记
multi-hop reasoning阅读理解,通过强化学习决定hop步数。
训练技巧:
一般的baseline方法采用的是全局baseline,但是不同输入的hop步数不同,采用全局baseline没有区分。本文采用Constrastive Reward,对每个输入单独计算baseline,提高训练速度。
multi-hop reasoning阅读理解,通过强化学习决定hop步数。
训练技巧:
一般的baseline方法采用的是全局baseline,但是不同输入的hop步数不同,采用全局baseline没有区分。本文采用Constrastive Reward,对每个输入单独计算baseline,提高训练速度。