Bert训练过程
word2vec存在问题:
语言模型如rnn、lstm最后输出的是整个句子的向量,而我们需要预测的是其中某个词的向量,所以用其做为词向量训练不合适,
有了双向lstm,即ELMo。
Bert的预训练过程:
bert:两个句子如果相连则输出0,不相连则输出1,然后将所有句子两两组合输入模型,开头加【cls】第一句【sep】第二句【sep】损失函数为mask单词和句子间关系损失之和。
bert作为预训练模型的使用:两种
将cls层输出的向量作为句子的向量,外接一个分类器进行情感分析,主题分类等任务。
第二种是相当于word2vec的升级版,将词向量输入进行加工,输出的还是词向量,只是更加准确,有语义信息更全面。