GRU
结构图
向前传播的公式
注:图中用h′表示h~trt=σ([ht−1,xt]⋅Wr)zt=σ([ht−1,xt]⋅Wz)h~t=tanh([rt∗ht−1,xt]⋅Wh~)ht=(1−zt)∗ht−1+zt∗h~tyt=σ(ht⋅Wo)
-
[ ]是将方括号内的矩阵拼接相连,如:[2, 3] 与 [11] 拼接成 [2, 3, 11]
-
*表示矩阵的阿达马乘积,即元素对位相乘
-
σ 是sigmoid函数 ,将数据缩放到 (0 ,1);tanh是双正切函数,将数据缩放到 (-1 , 1)
-
reset重置门:决定丢弃前一时刻的状态信息的程度,r 越小丢弃越多,r范围(0,1)
-
update更新门:在这,(1-z)构成遗忘门(参考LSTM)选择性遗忘前一时刻状态信息 ht−1 ,选择性记忆当前隐藏状态信息h′ ,最后得到 ht 。 有些博客是反过来的 ht=zt∗ht−1+(1−zt)∗h~t 即把z当作遗忘门,问题不大,其实道理都差不多,懂我意思吧~
如果有错,非常欢迎指出错误,我会积极接受人民群众的批评,未完待续~
允许转载,请附上原创链接, 谢谢~
参考链接
https://zhuanlan.zhihu.com/p/32481747