[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

sequence generation

 

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

每一步随机采样下一词

[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

conditional sequence generation

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

dynamic sequence generation(attention)

encoder可能无法将所有输入都压缩到一个vector中

之前decoder每一步的输入都是一样的,现在让decoder每一步自己选择需要输入的信息

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

tips

[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

transformer

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

多义词如何解决?

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

ELMO

[李宏毅-机器学习]序列模型 Sequence to Sequence model

每一个词得到多个embedding,然后将这个多个embedding加权相加,其中的加权参数是通过整个任务学习出来的

[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

BERT

[李宏毅-机器学习]序列模型 Sequence to Sequence model

输入一个句子,通过bert得到该句子的embedding

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

bert的输入句子的长度都不一样 是怎么学习参数的?

对不同词语使用同样的参数 并不是每个词都有一个对应参数 类似RNN 重复使用一套参数

self-attention可以堆叠很多层

 

ERNIE

[李宏毅-机器学习]序列模型 Sequence to Sequence model

 

GPT

[李宏毅-机器学习]序列模型 Sequence to Sequence model

Bert是transformer的encoder,GPT是transformer的decoder

[李宏毅-机器学习]序列模型 Sequence to Sequence model

只和已经产生的词进行attention