Bert训练过程

word2vec存在问题:

Bert训练过程

语言模型如rnn、lstm最后输出的是整个句子的向量,而我们需要预测的是其中某个词的向量,所以用其做为词向量训练不合适,

有了双向lstm,即ELMo。

Bert训练过程

 

Bert的预训练过程: 

Bert训练过程

bert:两个句子如果相连则输出0,不相连则输出1,然后将所有句子两两组合输入模型,开头加【cls】第一句【sep】第二句【sep】损失函数为mask单词和句子间关系损失之和。 

Bert训练过程

Bert训练过程

bert作为预训练模型的使用:两种

将cls层输出的向量作为句子的向量,外接一个分类器进行情感分析,主题分类等任务。

Bert训练过程

第二种是相当于word2vec的升级版,将词向量输入进行加工,输出的还是词向量,只是更加准确,有语义信息更全面。 

Bert训练过程

Bert训练过程