Word Embedding论文阅读笔记

1. Google 2017—Attention is All You Need

提出Transformer架构，用于机器翻译任务中。可替代RNN和Encoder-Decoder结构。仅使用attention机制(Self Attention + Multi-Head Attention)，没有任何递归和卷积。

不仅在机器翻译任务中效果好，而且可并行，训练时间短。

理解图中数据传递的意义（箭头）；

理解attention的原理（见补充内容2）；

位置信息通过Positional Encoding引入