2.LSTM核心内容

LSTM 的关键就是细胞状态（cell），水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。
LSTM

LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。
LSTM
Sigmoid 层输出 0 到 1 之间的数值，描述每个部分有多少量可以通过。0 代表“不许任何量通过”，1 就指“允许任意量通过”！

LSTM 拥有三个门，来保护和控制细胞状态。

3.逐步理解LSTM

在我们 LSTM 中的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过一个称为忘记门层完成。该门会读取ht−1和xtht−1和xt，输出一个在 0 到 1 之间的数值给每个在细胞状态Ct−1Ct−1中的数字。1 表示“完全保留”，0 表示“完全舍弃”。

让我们回到语言模型的例子中来基于已经看到的预测下一个词。在这个问题中，细胞状态可能包含当前主语的类别，因此正确的代词可以被选择出来。当我们看到新的代词，我们希望忘记旧的代词。
LSTM
决定丢弃信息
下一步是确定什么样的新信息被存放在细胞状态中。这里包含两个部分。第一，sigmoid 层称 “输入门层” 决定什么值我们将要更新。然后，一个 tanh 层创建一个新的候选值向量，C~tC~t，会被加入到状态中。下一步，我们会讲这两个信息来产生对状态的更新。

在我们语言模型的例子中，我们希望增加新的代词的类别到细胞状态中，来替代旧的需要忘记的代词。
LSTM

确定更新的信息
现在是更新旧细胞状态的时间了，Ct−1更新为CtCt−1更新为Ct。前面的步骤已经决定了将会做什么，我们现在就是实际去完成。

我们把旧状态与ftft相乘，丢弃掉我们确定需要丢弃的信息。接着加上it∗C~tit∗C~t。这就是新的候选值，根据我们决定更新每个状态的程度进行变化。

在语言模型的例子中，这就是我们实际根据前面确定的目标，丢弃旧代词的类别信息并添加新的信息的地方。
LSTM
更新细胞状态
最终，我们需要确定输出什么值。这个输出将会基于我们的细胞状态，但是也是一个过滤后的版本。首先，我们运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着，我们把细胞状态通过 tanh 进行处理（得到一个在 -1 到 1 之间的值）并将它和 sigmoid 门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。

在语言模型的例子中，因为他就看到了一个代词，可能需要输出与一个动词相关的信息。例如，可能输出是否代词是单数还是负数，这样如果是动词的话，我们也知道动词需要进行的词形变化。
LSTM
输出信息

4.总结数学表达式
Gates：
LSTM
输入变换：
LSTM
状态更新：
LSTM
使用图片描述类似下图：
LSTM
此图对应于本文上面LSTM的结构图。

LSTM代码实现

具体可参考这篇文章，利用Torch7实现。以后有机会会更新python实现。

RNN的缺陷和LSTM的应用

如果把RNN展开，可以看到RNN的结构和普通的网络相似，可以将其看作是若干个相同的网络相连，并将信息在网络中进行传递。由于这种信息传递的存在，RNN的就可以根据之前出现的信息对当前的信息进行推断，特别是在语言处理中，RNN就可以用于根据上文预测下一个将要出现的词。但是RNN只能处理一定间隔的信息，如果上文间隔过远，就有可能出现难以联想的情况。比如：

I grew up in France...此处省略100个字....I speak fluent French.

这种提示信息France距离French就间隔过远，RNN处理起来就比较吃力了。理论上RNN是能够通过一些人为的参数设置来实现这种大间隔的处理的，但是RNN似乎不能够去通过学习实现。《Understanding LSTM Networks》还列举了两篇论文来证明这一点。

因此，1997年有人就提出了LSTM（Long Short Term Memory Network），这是一种特殊的RNN，按照文章的说法，LSTM生来就是能够长时间记忆的网络，不需要刻意学习。