介绍

LSTM模型在语言模型，机器翻译等领域取得了非凡的成就，然后LSTM网络有几百万的参数以及需要数周在多GPU系统中进行训练。因此，一下介绍两种方法来缩减网络参数以及训练时间。两种方法分别为factorized LSTM（FLSTM）以及group LSTM（GLSTM）。

FLSTM

FLSTM网络主要是将大的LSTM矩阵转化为两个小的矩阵。

LSTM模型简单介绍

在LSTM网络中，
LSTM模型的两种分解技巧
其中 $x_{t}$ 表示输入， $h_{t}$ 表示cell state， $c_{t}$ 表示cell memory。
令cell gates（i,f,o,g）可以计算为：

其中 $x_{t} \in R^{p}, h_{t} \in R^{p} . a n d T : R^{2 p} \to R^{4 n}$ 是一个仿射变换 $T = W * [x_{t}, h_{t - 1}] + b$ ，则 $h_{t} \in R^{p}, c_{t} \in R^{n} 可以用下面的等式计算$ ：
LSTM模型的两种分解技巧
其中， $P : R^{n} \to R^{p}$ 是一个线性的映射，这里主要的计算量是在仿射变换T，由于其涉及到4n*2p的矩阵W，因此，FLSTM网络主要减少W的参数。

优化方法

在FLSTM网络中，主要是将矩阵W转化为两个矩阵，可以近似为 $W \approx W_{2} * W_{1}$ ，其中 $W_{1}$ 大小为2p*r， $W_{2}$ 大小为r*4n。并且，r < p <= n ，这里主要的假设是矩阵W能够被r阶矩阵所表示，因为转换后的参数大小为（r*2p+r*4n），而LSTM网络的参数为2p*4n。
LSTM模型的两种分解技巧

GLSTM

GLSTM主要是将不同的LSTM cell分到独立的组里。
假定一些输入 $x_{t}$ 以及隐藏层 $h_{t}$ 可以被分到不同的独立的组中。例如，如果有两个组，则 $x_{t}$ 和 $h_{t}$ 能够有效的被分成两个向量， $x_{t} = (x_{t}^{1}, x_{t}^{2})$ 和 $h_{t} = (h_{t}^{1}, h_{t}^{2})$ ，其中 $h_{t}^{i}$ 仅依靠 $x_{t}^{i}, h_{t - 1}^{i}$ 以及cell memory state。因此，分为k个组的公式可以表示为：
LSTM模型的两种分解技巧