Bert的预训练过程：

Bert训练过程

bert：两个句子如果相连则输出0，不相连则输出1，然后将所有句子两两组合输入模型，开头加【cls】第一句【sep】第二句【sep】损失函数为mask单词和句子间关系损失之和。

Bert训练过程

bert作为预训练模型的使用：两种

将cls层输出的向量作为句子的向量，外接一个分类器进行情感分析，主题分类等任务。

Bert训练过程

第二种是相当于word2vec的升级版，将词向量输入进行加工，输出的还是词向量，只是更加准确，有语义信息更全面。

Bert训练过程

Bert训练过程