您的位置: 首页 > 文章 > task02 task02 分类: 文章 • 2025-04-24 11:11:52 strip()方法 collections 语言模型 n元语法 随机采样 相邻采样 梯度裁剪 在BP过程中会产生梯度消失/爆炸 (偏导无限接近0,导致长时记忆无法更新) g1=∂J(w)∂w1,g2=∂J(w)∂w2g_{1}=\frac{\partial J(\mathbf{w})}{\partial w_{1}},g_{2}=\frac{\partial J(\mathbf{w})}{\partial w_{2}}g1=∂w1∂J(w),g2=∂w2∂J(w),∥g∥2=g12+g22\|\mathbf{g}\|_{2}=\sqrt{g_{1}^{2}+g_{2}^{2}}∥g∥2=g12+g22 ∥g∥2\|\mathbf{g}\|_{2}∥g∥2 大于等于 θ{\theta}θ 时,g=θ∥g∥2⋅g\mathbf{g}=\frac{\theta}{\|\mathbf{g}\|_{2}} \cdot \mathbf{g}g=∥g∥2θ⋅g ∥g∥2\|\mathbf{g}\|_{2}∥g∥2 小于等于 θ{\theta}θ 时,g\mathbf{g}g不变