您的位置: 首页 > 文章 > 机器学习与深度学习系列连载：第二部分深度学习（二十) 轮询采样 Scheduled Sampling

机器学习与深度学习系列连载：第二部分深度学习（二十) 轮询采样 Scheduled Sampling

分类: 文章 • 2025-02-27 11:59:16

计划采样 Scheduled Sampling 和强化学习辅助

当我们用Seq2Seq模型进行训练和测试的时候，很容易遇到Mismatch的问题，因为训练的时候，不同的timestep输入的是groudTruth的值，但是测试的时候，不同的timestep输入的是生成的值。具体我们看下面的解释。

1. 训练和测试的Mismatch

训练的时候：
机器学习与深度学习系列连载：第二部分深度学习（二十) 轮询采样 Scheduled Sampling

测试的时候：
Testing: The inputs are the outputs of the last time step.
机器学习与深度学习系列连载：第二部分深度学习（二十) 轮询采样 Scheduled Sampling

这会造成什么问题呢？ 训练的时候错一步，只一步，测试的时候一步错，步步错！
机器学习与深度学习系列连载：第二部分深度学习（二十) 轮询采样 Scheduled Sampling

2. Scheduled Sampling

我们训练的时候兼顾reference和generation，兼顾的方式是按照概率选择。
机器学习与深度学习系列连载：第二部分深度学习（二十) 轮询采样 Scheduled Sampling
但是选择不是随机的，训练开始的时候，还是以referenc为主，到训练后期，参考自己生成的

3. 强化学习辅助

通过强化学习，而不是人为设定，进行结果序列生成。最终的结果的reward决定训练的过程。
机器学习与深度学习系列连载：第二部分深度学习（二十) 轮询采样 Scheduled Sampling

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229，斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里，感谢这些经典课程，向他们致敬！