动手学深度学习(Pytorch版)task3-5打卡

对于task3-5的内容进行打卡

Task03:过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶

模型复杂度和误差之间的关系

动手学深度学习(Pytorch版)task3-5打卡
权重衰减的计算公式:
动手学深度学习(Pytorch版)task3-5打卡

Xavier初始化

动手学深度学习(Pytorch版)task3-5打卡

梯度裁剪

循环神经网络中较容易出现梯度衰减或梯度爆炸,这会导致网络几乎无法训练。裁剪梯度(clip gradient)是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量 g ,并设裁剪的阈值是 θ 。裁剪后的梯度为:
动手学深度学习(Pytorch版)task3-5打卡

GRU

动手学深度学习(Pytorch版)task3-5打卡
重置门用于捕捉时间序列里的短期依赖关系
更新门有助于捕捉时间序列里的长期依赖关系

Task04:机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

Encoder-decoder结构

动手学深度学习(Pytorch版)task3-5打卡

注意力机制

动手学深度学习(Pytorch版)task3-5打卡
动手学深度学习(Pytorch版)task3-5打卡

Transformer

动手学深度学习(Pytorch版)task3-5打卡

卷积神经网络基础;leNet;卷积神经网络进阶

二维互相关运算

动手学深度学习(Pytorch版)task3-5打卡

卷积计算公式

动手学深度学习(Pytorch版)task3-5打卡

LeNet模型

动手学深度学习(Pytorch版)task3-5打卡

待完成

  • 卷积网络进阶以及自己动手实践
  • 自己实现Transoformer结构
  • 对于attention机制进行进一步理解