论文阅读——Modeling Future Cost for Neural Machine Translation
https://arxiv.org/abs/2002.12558
NMT的未来成本建模(未开源)
根据当前生成的目标词及其上下文信息,对未来的时间相关成本进行估计,以促进NMT模型的训练。在当前的时间步长的学习的未来上下文表示被用来帮助在解码中生成下一个目标词。
利用预先习得的翻译知识(即,翻译模型和语言模型)来预先计算一个源句中任意跨度的输入词的未来成本。计算出的未来成本估计了翻译源句中未翻译部分的难度,对于输入单词数量相同的翻译项,未来成本越高,意味着源句中未翻译的部分越难翻译。解码时PBSMT(phrase-based statistial MT)将当前跨度和未来成本的部分翻译概率分数相加,以度量每个翻译选项的质量。因此,一个或多个翻译假设(由未来成本更低的翻译选项扩展所得)仍然作为生成后续翻译的最佳路径保留在beam-search stack中。
论文贡献:在NMT中引入了一种新的未来成本机制,估计当前生成的目标词对后续翻译的影响;所提出的两个模型可以将未来成本机制集成到最新的Transformer-based的NMT系统中,从而提高翻译性能。
该方法利用当前的目标词及其上下文表示来学习未来的上下文表示,这个未来的上下文表示被输入到softmax层,计算当前目标字的未来成本。
其中,输入序列x={x1, ..., xJ}长度为J,自注意力子层SelfATT(.),前馈网络层子FFN(.),前两者残差连接及层归一化LN(.),编码器一共N层,He^N是最终的源句表征。解码器也是N层,且每层比编码器多一个子层ATT(.)用来结合编码器的输出He^N。
通过上述公式得到解码器顶层Hi^N建模当前上下文信息,结合当前目标词yi来学习未来上下文表示Fi:
其中E是目标词表的向量句子,Wr、Ur、Wz、Uz、W和U是模型参数,使用源端结束标记</s>和He^N的向量的平均值作为Eq.(8) ~ Eq.(11)的输入来学习F0。习得的未来上下文表征Fi作为softmax层的输入,计算当前时间步的临时目标词yˆi + 1的近似概率,即当前生成目标词的未来成本:(Wo和Ww是映射矩阵)
(1)模型1
在每一个时间步计算一个未来成本的附加损失项。引入损失项F(θ)预测当前时间步生成的目标词的未来成本,通过一个双语平行句对{[x, y]}计算所提出的模型1的损失函数:
(2)模型2
除了增加了未来成本的损失项外,还利用习得的未来上下文表征帮助下一个时间步的目标词生成,从而提高了基于Transformer的NMT模型的翻译性能。在第i+1给时间步,未来上下文表征Fi首先和解码器顶层的Hi+1^N作为sigmoid层的输入得到gi+1,然后g作为衡量Fi重要性从而获得一个融合上下文的表征H:
最终H作为softmax层的输入计算第i+1时间步目标词yi+1的翻译概率。
实验结果
结论:改进后的模型效果比之前的好;模型2比模型1效果好;Trans.big比Trans.base效果好;模型只需要增加少量参数就可以显著提高效率;在EN-DE和EN-FR任务中,BLEU得分随着句子长度的增加而增加,NMT可能擅长对遥远的语言对之间的翻译进行建模。