对于task3-5的内容进行打卡

Task03：过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

模型复杂度和误差之间的关系

动手学深度学习（Pytorch版）task3-5打卡
权重衰减的计算公式：

动手学深度学习（Pytorch版）task3-5打卡

循环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量 g ，并设裁剪的阈值是 θ 。裁剪后的梯度为：
动手学深度学习（Pytorch版）task3-5打卡

动手学深度学习（Pytorch版）task3-5打卡
重置门用于捕捉时间序列里的短期依赖关系
更新门有助于捕捉时间序列里的长期依赖关系

动手学深度学习（Pytorch版）task3-5打卡

动手学深度学习（Pytorch版）task3-5打卡

动手学深度学习（Pytorch版）task3-5打卡

动手学深度学习（Pytorch版）task3-5打卡

动手学深度学习（Pytorch版）task3-5打卡

动手学深度学习（Pytorch版）task3-5打卡