1 推理和训练

1.1 监督学习与非监督学习

Supervised Learning 有监督式学习:
- 输入的数据被称为训练数据（有标记），一个模型需要通过一个训练过程，在这个过程中进行预期判断，如果错误了再进行修正，训练过程一直持续到基于训练数据达到预期的精确性。其关键方法是分类和回归，算法是逻辑回归(Logistic Regression)和BP神经网络(Back Propagation Neural Network)。
Unsupervised Learning无监督学习
- 没有任何训练数据，基于 没有标记 的输入数据采取推导结构的模型，其关键方式是关联规则学习和聚合，算法有Apriori 算法和k-means.

1.2 深度学习的推理和训练

训练（Training）：一个初始神经网络通过不断的优化自身参数，来让自己变得准确。这整个过程就称之为训练（Traning）。
推理（Inference）：你训练好了一个模型，在训练数据集中表现良好，但是我们的期望是它可以对以前没看过的图片进行识别。你重新拍一张图片扔进网络让网络做判断，这种图片就叫做现场数据（live data），如果现场数据的区分准确率非常高，那么证明你的网络训练的是非常好的。这个过程，称为推理（Inference）。—— 上线预测

1.3 优化和泛化

深度学习的根本问题是优化和泛化之间的对立。

**优化（optimization）**是指调节模型以在训练数据上得到最佳性能（即机器学习中的学习）。
**泛化（generalization）**是指训练好的模型在前所未见的数据上的性能好坏。

1.4 数据集的分类

数据集可以分为：

训练集：实际训练算法的数据集；用来计算梯度，并确定每次迭代中网络权值的更新；
验证集：用于跟踪其学习效果的数据集；是一个指示器，用来表明训练数据点之间所形成的网络函数发生了什么，并且验证集上的误差值在整个训练过程中都将被监测；
测试集：用于产生最终结果的数据集。

为了让测试集能有效反映网络的泛化能力：

测试集绝不能以任何形式用于训练网络，即使是用于同一组备选网络中挑选网络。测试集只能在所有的训练和模型选择完成后使用；
测试集必须代表网络使用中涉及的所有情形。

1.5 交叉验证

这里有一堆数据，我们把他切成 3个部分（当然还可以分的更多）

第一部分做测试集，二三部分做训练集，算出准确度；
第二部分做测试集，一三部分做训练集，算出准确度；
第三部分做测试集，一二部分做训练集，算出准确度；

之后算出三个准确度的平局值，作为最后的准确度。

8-2 推理和训练

2 神经网络的训练

我们利用神经网络去解决图像分割，边界探测等问题时候，我们的输入（假设为x），与 期望的输出（假设为y）之间的关系究竟是什么？

也就是 y=f(x) 中，f 是什么，我们也不清楚，但是我们对一点很确信，那就是**f不是一个简单的线性函数**，应该是一个抽象的复杂的关系，那么利用神经网络就是去学习这个关系，存放在model中，利用得到的model去推测训练集之外的数据，得到期望的结果。

2.1 相关概念

代(Epoch)：使用训练集的全部数据对模型进行一次完整训练，被称为“一代训练”。
批大小(Batch size)：使用训练集的一小部分样本对模型权重进行一次反向传播的参数更新，这一小部分样本被称为“一批数据”
迭代(Iteration)：使用一个Batch数据对模型进行一次参数更新的过程，被称为“一次训练”（一次迭代）。每一次迭代得到的结果都会被作为下一次迭代的初始值。一个迭代 = 一个正向通过 + 一个反向通过。

8-2 推理和训练

2.2 BP神经网络

BP网络（Back-Propagation Network）是1986年被提出的，是一种按误差逆向传播算法训练的多层前馈网络
- 是目前应用最广泛的神经网络模型之一，用于函数逼近、模型识别分类、数据压缩和时间序列预测等。
BP网络又称为反向传播神经网络，它是一种有监督的学习算法，
- 具有很强的自适应、自学习、非线性映射能力，
- 能较好地解决数据少、信息贫、不确定性问题，
- 且不受非线性模型的限制。
一个典型的BP网络应该包括三层：
- 输入层
- 隐藏层
- 输出层
- 各层之间全连接，同层之间无连接。隐藏层可以有很多层。

8-2 推理和训练

学习过程

正向传播
- 输入信号从输入层经过各个隐藏层向输出层传播。在输出层得到实际的响应值，若实际值与期望值误差较大，就会转入误差反向传播阶段。
反向传播
- 按照梯度下降的方法从输出层经过各个隐含层并逐层不断地调整各神经元的连接权值和阈值，反复迭代，直到网络输出的误差减少到可以接受的程度，或者进行到预先设定的学习次数。

正向传播：由现有权重得出结果

反向传播：根据结果更新权重

2.3 神经网络的训练过程

学术狗的说法

提取特征向量作为输入。
定义神经网络结构。包括隐藏层数，**函数等等。
通过训练利用反向传播算法不断优化权重的值，使之达到最合理水平。
使用训练好的神经网络来预测未知数据(推理)，这里训练好的网络就是指权重达到最优的情况。

程序猿的说法

选择样本集合的一个样本（Ai，Bi），Ai为数据、Bi为标签（所属类别）
送入网络，计算网络的实际输出Y，（此时网络中的权重应该都是随机量）
计算D=Bi−Y（即预测值与实际值相差多少）
根据 误差D 调整 权重矩阵W
对每个样本重复上述过程，直到对整个样本集来说，误差不超过规定范围

更具体的：

参数的随机初始化

前向传播计算每个样本对应的输出节点**函数值

计算损失函数

反向传播计算偏导数

计算梯度来进行梯度检查，以判断偏导数计算的正确性。如果正确就取消掉梯度检查。

使用梯度下降或者先进的优化方法更新权值

[Game Time]

Playground地址： http://playground.tensorflow.org/

2.3.1 参数的随机初始化

对于所有的参数我们必须初始化它们的值，而且
- 它们的初始值不能设置成一样，比如都设置成0或1。
- 如果设置成一样那么更新后所有参数都会相等。即所有神经元的功能都相等，造成了高度冗余。所以我们必须随机化初始参数。
特别的，如果神经网络没有隐藏层，则可以把所有参数初始化为0。（但这也不叫深度神经网络了）

权重初始化

权重初始化并不是简单的随机初始化，而是一项会影响训练性能的关键一步，而且有时候会依赖于选择的**函数。如果仅仅是将权重随机初始化为一些很小的随机数，它会打破梯度更新对称性。

权重参数初始化从区间均匀随机取值。
XAvier初始化（sigmoid、tanh）
初始化为小的随机数（小型网络）：比如，可以初始化为均值为0,方差为0.01的高斯分布
权重初始化为正态分布（relu）
MSRA Filler（relu）：用均方差为0，方差为
的高斯分布。
偏置bias的初始化：一般初始化为0

8-2 推理和训练

2.3.2 标准化（Normalization）

原因：由于进行分类器或模型的建立与训练时，输入的数据范围可能比较大，同时样本中各数据可能量纲不一致，这样的数据容易对模型训练或分类器的构建结果产生影响，因此需要对其进行标准化处理，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

归一化处理

其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上。

8-2 推理和训练

z-score标准化

z-score标准化（零均值归一化zero-mean normalization）：

经过处理后的数据 均值为0，标准差为1（正态分布）
其中μ是样本的均值， σ是样本的标准差

8-2 推理和训练

2.3.3 损失函数

损失函数 用于描述模型预测值与真实值的差距大小。一般有有两种常见的算法——均值平方差（MSE）和交叉熵。

均值平方差（Mean Squared Error，MSE），也称“均方误差”：

8-2 推理和训练

**交叉熵（cross entropy）**也是loss算法的一种，一般用在分类问题上，表达意思为预测输入样本属于哪一类的概率。值越小，代表预测结果越准。（y代表真实值分类（0或1），a代表预测值）：

8-2 推理和训练

损失函数的选取

损失函数的选取取决于输入标签数据的类型：

如果输入的实数、无界的值，损失函数使用MSE。
如果输入标签是位矢量（分类标志），使用交叉熵会更适合。

2.3.4 梯度下降法

**梯度 ** ∇f=(∂x1 ∂f ;∂x2 ∂f ;…;∂xn ∂f ) 指函数关于变量 x 的导数，梯度的方向表示函数值增大的方向，梯度的模表示函数值增大的速率。
那么只要不断将参数的值向着梯度的反方向更新一定大小，就能得到函数的最小值（全局最小值或者局部最小值）。
一般利用梯度更新参数时会将梯度乘以一个小于1的学习速率（learning rate），这是因为往往梯度的模还是比较大的，直接用其更新参数会使得函数值不断波动，很难收敛到一个平衡点（这也是学习率不宜过大的原因）。

8-2 推理和训练

学习率

学习率 是一个重要的超参数，它控制着我们基于损失梯度调整神经网络权值的速度。
学习率越小，我们沿着损失梯度下降的速度越慢。
从长远来看，这种谨慎慢行的选择可能还不错，因为可以避免错过任何局部最优解，但它也意味着我们要花更多时间来收敛，尤其是如果我们处于曲线的至高点。

新权值 = 当前权值 - 学习率 × 梯度

紫色部分：正确结果与节点输出结果的差值，也就是误差;

红色部分：节点的**函数，所有输入该节点的链路把经过其上的信号与链路权重做乘积后加总，再把加总结果进行**函数运算;

绿色部分：链路w(jk)前端节点输出的信号值。

2.3.5 泛化能力分类

欠拟合：模型没有能够很好的表现数据的结构，而出现的拟合度不高的情况。模型不能在训练集上获得足够低的误差；
拟合：测试误差与训练误差差距较小；
过拟合：模型过分的拟合训练样本，但对测试样本预测准确率不高的情况，也就是说模型泛化能力很差。训练误差和测试误差之间的差距太大；
不收敛：模型不是根据训练集训练得到的。

8-2 推理和训练

（1）过拟合

过拟合指的是给定一堆数据，这堆数据带有噪声，利用模型去拟合这堆数据，可能会把噪声数据也给拟合了。
- 一方面会造成模型比较复杂；
- 另一方面，模型的泛化性能太差了，遇到了新的数据，用所得到的过拟合的模型，正确率是很差的。

8-2 推理和训练

出现的原因：
1. 建模样本选取了错误的选样方法、样本标签等，或样本数量太少，所选取的样本数据不足以代表预定的分类规则
2. 样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则
3. 假设的模型无法合理存在，或者说是无法达到假设成立的条件
4. 参数太多导致模型复杂度过高
5. 对于神经网络模型：
  1. 对样本数据可能存在分类决策面不唯一，随着学习的进行,，BP算法使权值可能收敛过于复杂的决策面；
  2. 权值学习迭代次数足够多，拟合了训练数据中的噪声和训练样例中没有代表性的特征。

（2）过拟合的解决方法

减少特征：删除与目标不相关特征，如一些特征选择方法
Early stopping
更多的训练样本。
重新清洗数据。
Dropout

Early Stopping

在每一个Epoch结束时，计算validation data的accuracy，当accuracy不再提高时，就停止训练。
那么该做法的一个重点便是怎样才认为validation accurary不再提高了呢？并不是说validation accuracy一降下来便认为不再提高了，因为可能经过这个Epoch后，accuracy降低了，但是随后的 Epoch又让accuracy又上去了，所以不能根据一两次的连续降低就判断不再提高。
一般的做法是，
- 在训练的过程中，记录到目前为止最好的validation accuracy，
- 当连续10次Epoch（或者更多次）没达到最佳accuracy时，则可以认为accuracy不再提高了。
- 此时便可以停止迭代了（Early Stopping）。
这种策略也称为“No-improvement-in-n”，n即Epoch的次数，可以根据实际情况取，如10、20、30

Dropout

在神经网络中，dropout方法是通过修改神经网络本身结构来实现的：

在训练开始时，随机删除一些（可以设定为1/2，也可以为1/3，1/4等）隐藏层神经元，即认为这些神经元不存在，同时保持输入层与输出层神经元的个数不变。
然后按照BP学习算法对ANN中的参数进行学习更新（虚线连接的单元不更新，因为认为这些神经元被临时删除了）。这样一次迭代更新便完成了。下一次迭代中，同样随机删除一些神经元，与上次不一样，做随机选择。这样一直进行，直至训练结束。

Dropout方法是通过修改ANN(Artificial Neural Network)人工神经网络中隐藏层的神经元个数来防止ANN的过拟合。