您的位置: 首页 > 文章 > transformer的一些note transformer的一些note 分类: 文章 • 2024-05-18 10:44:34 Pos-Embedding 不同维度的正弦曲线,横轴为变化的pos。 我们还尝试使用学习的位置embedding来代替,发现这两个版本产生了几乎相同的结果。我们选择正弦模型是因为它可以使模型外推到比训练中遇到的序列长度长的序列。 未完待续