nlp词向量预习总结——nlp任何任务的基础,nlp入门第一步
一图胜千言系列:
1. 一开始是用 one-hot embedding
缺点是 不能计算语义相似度、太大了(如果几百万个单词,分布式的是2上n,而这个才是n)
2.分布式编码
-
static embedding:
- skipgram = 不经常出现的单词
- cbow = 经常出现的单词
-
context embedding:
- 一开始是lstm来进行的。elmo就是好几个lstm得到的h 和自身的编码 concat。(deep bi-lstm)
- lstm-based 过渡到 Transformer-based :前者缺点,不能并行化,容易梯度消失,太长的句子的时候。
- gpt 和 elmo差不多,用前一个单词预测后面一个单词,但是 是基于transformer的
- bert改进了gpt,因为用左边也用右边来预测单词
-
Bert
DAE(denoising autoencoder)
-
XLNet
第一种是 lstm的
第二种是bert的 =====>>>词所有可能性计算概率。这样就能是全局信息了。
结合两者的缺点