摩尔LabAI学习小组第二次打卡

1、文本预处理

1)预处理步骤
文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:
a,读入文本
b,分词
c,建立字典,将每个词映射到一个唯一的索引(index)
d,将文本从词的序列转换为索引的序列,方便输入模型

2、语言模型

1)某文本序列的概率
摩尔LabAI学习小组第二次打卡
但是以上概率过于繁琐,所以经过马尔科夫链假设,简化为:
摩尔LabAI学习小组第二次打卡
2)时序数据的采样
为什么采样?
答:在训练中我们需要每次随机读取小批量样本和标签
采样方法:
随机采样和相邻采样。

3、循环神经网络

1)循环神经网络
本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量 H ,用 Ht 表示 H 在时间步 t 的值。 Ht 的计算基于 Xt 和 Ht−1 ,可以认为 Ht 记录了到当前字符为止的序列信息,利用 Ht 对序列的下一个字符进行预测。
2)循环神经网络的构造:
摩尔LabAI学习小组第二次打卡

4、过拟合与欠拟合

1)概念
过拟合和欠拟合
接下来,我们将探究模型训练中经常出现的两类典型问题:

一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting);
另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题,在这里我们重点讨论两个因素:模型复杂度和训练数据集大小。

2)应对方法:
a)权重衰减,也叫正则法
b)丢弃法。

5、梯度下降

1)概念:
梯度消失和梯度爆炸
简而言之:多层感知机层数较多,小的越小,大的越大;
2)环境因素的某些改变造成对模型的影响,这些改变包括:
a,协变量偏移;b,标签偏移;c,概念偏移。

实例:
摩尔LabAI学习小组第二次打卡

6、循环神经网络进阶

1)gru
摩尔LabAI学习小组第二次打卡
2)LSTM
摩尔LabAI学习小组第二次打卡
3)深度循环神经网络
摩尔LabAI学习小组第二次打卡
4)双向循环神经网络
摩尔LabAI学习小组第二次打卡