nlp词向量预习总结——nlp任何任务的基础,nlp入门第一步

一图胜千言系列:

nlp词向量预习总结——nlp任何任务的基础,nlp入门第一步

1. 一开始是用 one-hot embedding

缺点是   不能计算语义相似度、太大了(如果几百万个单词,分布式的是2上n,而这个才是n)

2.分布式编码

  • static embedding:

  1. skipgram = 不经常出现的单词
  2. cbow = 经常出现的单词
  • context embedding:

  1. 一开始是lstm来进行的。elmo就是好几个lstm得到的h 和自身的编码 concat。(deep bi-lstm)
  2. lstm-based  过渡到 Transformer-based :前者缺点,不能并行化,容易梯度消失,太长的句子的时候。
  3. gpt 和 elmo差不多,用前一个单词预测后面一个单词,但是 是基于transformer的
  4. bert改进了gpt,因为用左边也用右边来预测单词
  • Bert

DAE(denoising autoencoder)

 

 

  • XLNet

第一种是 lstm的

第二种是bert的               =====>>>词所有可能性计算概率。这样就能是全局信息了。

结合两者的缺点

nlp词向量预习总结——nlp任何任务的基础,nlp入门第一步