RNN、LSTM神经网络输入输出究竟是怎样的?

原本以为自己懂的,可是看着看着论文,就越来越不知道Recurrent NNs(这里不区分LSTM,GRU)的输入输出到底是怎么样的。所以,查阅多篇资料,整合如下,希望能帮到大家。

首先用「动图」和「举例子」讲讲 RNN(里面的动图非常容易让大家理解每个timestep如何喂数据的)

其次,以一个操做实例来具体讲一下Recurrent NNs的工作流程:
答案来源于知乎作者Scofield

  • step 1 raw text:
    sentence : “今天天气真好”
  • step 2 tokenize (中文分词)
    今天 天气 真好
  • step 3 dictionarize(将每个词转化为在字典中的索引)
    31 45 2
  • step 4 padding every sentence to fixed length
    31 45 2 0 0
    (假设fixed length = 5)
  • step 5 mapping token to an embeddings
    RNN、LSTM神经网络输入输出究竟是怎样的?
    每一列代表一个词向量,维度自定义。矩阵的列数为一个句子的token个数,也是time_step length。对当前句子来说,token值为5,time_step也为5。
  • step 6 feed into RNNs as input
    每个sentence的每个token的embedding对应了每个时序 t 的输入。即time_step=1时,input为第一个词的词向量,词向量中的每一个元素对应输入层的每个节点。
  • step 7 get output
    RNN、LSTM神经网络输入输出究竟是怎样的?
    (后面会讲隐藏层和最后输出的区别,这点在pytorch中困扰我好久了)
  • step 8 further processing with the output
    我们可以将output根据分类任务或回归拟合任务的不同,分别进一步处理。比如,传给cross_entropy&softmax进行分类,或者获取每个time_step对应的隐状态 ,做seq2seq 网络

最后,讲一下“隐藏”和“输出”之间有什么区别。
PyTorch LSTM中“隐藏”和“输出”之间有什么区别

RNN、LSTM神经网络输入输出究竟是怎样的?
output 包括最后一层中的所有隐藏状态(“最后”深度方式,而不是时间方式,即所有时刻最后一层的隐层状态)。 (h_n, c_n) 包括最后一个时间步后的隐藏状态,所以你可以将它们送入另一个LSTM。