Transformer的工作

要想学习BERT,需要先了解Transformer

1、Transformer的工作

Transformer的工作

2、传统网络结构的问题

Transformer的工作
RNN网络不能做并行训练,X1会用上X0的隐层特征,X2会用上X1的隐层特征,所以不能独立计算(x0,x1,x2各自计算,算完合在一起),所以不能并行计算,所以层数不够多,计算速度也不快。

Transformer注意力机制

Transformer的工作
注意力机制简单点说就是"今天早上吃饭,上午上课,下午上课,晚上打篮球!"注意力放在打球上,其他都可以不怎么关注。Transformer左边一步一步,右边并行。

传统word2vec的问题

Transformer的工作
同一个词在不同已经当中是不同的,需要在不同语境当中根据上下文表达不同的效果,而不是如传统的word2vec当中,一个词向量训练完了就固定了。

整体结构

Transformer的工作