应该能看懂的GRU结构

GRU

结构图应该能看懂的GRU结构

向前传播的公式

hh~trt=σ([ht1,xt]Wr)zt=σ([ht1,xt]Wz)h~t=tanh([rtht1,xt]Wh~)ht=(1zt)ht1+zth~tyt=σ(htWo) \begin{array}{l} 注:图中用 h^{\prime} 表示 \tilde{h}_{t} \\ r_{t}=\sigma\left([h_{t-1}, x_{t}] \cdot W_{r}\right) \\ z_{t}=\sigma\left([h_{t-1}, x_{t}] \cdot W_{z}\right) \\ \tilde{h}_{t}=\tanh \left(\left[r_{t} * h_{t-1}, x_{t}\right] \cdot W_{\tilde{h}}\right) \\ h_{t}=\left(1-z_{t}\right) * h_{t-1}+z_{t} * \tilde{h}_{t} \\ y_{t}=\sigma\left(h_{t} \cdot W_{o} \right) \end{array}

  1. [ ]是将方括号内的矩阵拼接相连,如:[2, 3] 与 [11] 拼接成 [2, 3, 11]

  2. *表示矩阵的阿达马乘积,即元素对位相乘

  3. σ\sigma 是sigmoid函数 ,将数据缩放到 (0 ,1);tanh是双正切函数,将数据缩放到 (-1 , 1)

  4. reset重置门:决定丢弃前一时刻的状态信息的程度,r 越小丢弃越多,r范围(0,1)

  5. update更新门:在这,(1-z)构成遗忘门(参考LSTM)选择性遗忘前一时刻状态信息 ht1h_{t-1} ,选择性记忆当前隐藏状态信息hh^{\prime} ,最后得到 ht{h}_{t}有些博客是反过来的 ht=ztht1+(1zt)h~th_{t}=z_{t} * h_{t-1}+(1-z_{t}) * \tilde{h}_{t} 即把z当作遗忘门,问题不大,其实道理都差不多,懂我意思吧~

如果有错,非常欢迎指出错误,我会积极接受人民群众的批评,未完待续~

允许转载,请附上原创链接, 谢谢~

参考链接
https://zhuanlan.zhihu.com/p/32481747