task02

strip()方法

task02

collections

task02

语言模型

task02

n元语法

task02

随机采样

task02

相邻采样

task02

梯度裁剪

在BP过程中会产生梯度消失/爆炸
(偏导无限接近0,导致长时记忆无法更新)

g1=J(w)w1,g2=J(w)w2g_{1}=\frac{\partial J(\mathbf{w})}{\partial w_{1}},g_{2}=\frac{\partial J(\mathbf{w})}{\partial w_{2}}g2=g12+g22\|\mathbf{g}\|_{2}=\sqrt{g_{1}^{2}+g_{2}^{2}}

g2\|\mathbf{g}\|_{2} 大于等于 θ{\theta} 时,
g=θg2g\mathbf{g}=\frac{\theta}{\|\mathbf{g}\|_{2}} \cdot \mathbf{g}

g2\|\mathbf{g}\|_{2} 小于等于 θ{\theta} 时,g\mathbf{g}不变