您的位置: 首页 > 文章 > Transformer的工作

Transformer的工作

分类: 文章 • 2023-02-20 00:06:11

要想学习BERT，需要先了解Transformer

1、Transformer的工作

Transformer的工作

2、传统网络结构的问题

Transformer的工作
RNN网络不能做并行训练，X1会用上X0的隐层特征，X2会用上X1的隐层特征，所以不能独立计算(x0,x1,x2各自计算，算完合在一起)，所以不能并行计算，所以层数不够多，计算速度也不快。

Transformer注意力机制

Transformer的工作
注意力机制简单点说就是"今天早上吃饭，上午上课，下午上课，晚上打篮球！"注意力放在打球上，其他都可以不怎么关注。Transformer左边一步一步，右边并行。

传统word2vec的问题

Transformer的工作
同一个词在不同已经当中是不同的，需要在不同语境当中根据上下文表达不同的效果，而不是如传统的word2vec当中，一个词向量训练完了就固定了。

整体结构

Transformer的工作