手工分析错误

手工分析错误的大多数是什么

猫猫识别，准确率90%，想提升，就继续猛加材料，猛调优？ --应该先做错误分析，再调优！

把识别出错的100张拿出来，

如果发现50%是"把狗识别成了猫"。那么发力点就是这个，如果再优化，提升就很大！

如果发现只有5%是"把狗识别成了猫"，那么在狗这个方面努力，提升不大。

手工也可以分析多个错误类别

对于识别出错的100张图片，分析到底是什么情况。

对于上述问题，找准方向，让系统识别"不清楚的猫"的能力更强，就提升很大！

错误标签/错误标签的修正

训练集标签有错误怎么办

训练集 == {一组列向量(猫)，一个向量(答案)}，如果答案错了呢？

比例一般很小，没啥影响！

如果是系统型的错误，就要处理了。比如对于白色猫，手打的标签==狗。那么用户上传一只白色的猫，系统真的认为是一种狗。

错误标签的修正

在验证集和测试集上同时使用，并且是同样的修正手段，以保证验证集和测试集来自相同的分布；

同时检查判断正确和判断错误的例子（通常不用这么做）；

在修正验证集和测试集时，鉴于训练集的分布不一定和验证/测试集完全相同，可以不去修正训练集。

快速地构建一个简单的系统

建议快速搭建好第一个系统，然后开始迭代。（是不是类似那个。。快速原型模型？）

设置好训练、验证、测试集，设置好衡量指标，确定目标；

快速训练出一个初步的系统，用训练集来拟合参数，用验证集调参，用测试集评估；

通过偏差/方差分析以及错误分析等方法，决定下一步优先处理的方向。

训练集与验证集-来源不一致的情况（异源问题）

有时，我们很难得到来自同一个来源的训练/验证/测试集

SSR类图片 == 专业拍摄+高清，我们目前有20W个。

A类图片 == 非专业拍摄+标清，我们有1W个

既然模型的目的==识别这些用户上传的A类模糊图片。那么

训练集 == 20W个SSR + 5K个A

验证集 == 测试集 == 2.5K个A

异源时的拟合度分析

误差分析：拟合情况是从误差里面看出来的

若是之前，模型训练好之后，表现情况：训练集判别误差1%，测试集判别误差8%，我们可以说明过拟合问题。

若是异源，同样的情况，我们不一定能说明是过拟合。

情况1.过拟合问题情况2.可能单纯的训练集高清大图比较容易识别，测试集模糊不堪不好搞。

解决方案：搞一个新的数据集--在训练神经网络之前，从训练集中拿出一部分 == 训练验证集。

若训练集误差1%，训练验证集误差9%，验证集误差10% == 过拟合问题

若训练集误差1%，训练验证集误差1.5%，验证集误差10% == 数据来源不一致问题

如何解决异源问题

做错误分析，尝试了解训练集和验证/测试集的具体差异（主要是人工查看训练集和验证集的样本）；

尝试将训练数据调整得更像验证集，或者收集更多类似于验证/测试集的数据。

使用人工合成数据也可以考虑，但需要注意的是，比如：噪音1h合成在600h的语音，人听不出区别，但模型知道这全是同样的声音，对这个声音数据特别拟合，对未来随机的噪声表现不佳。

迁移学习

什么是迁移学习

识别猫--》识别狗

如何实现

先删除神经网络中原有的输出层，加入新的输出层（一层或者几层）并随机初始化权重系数（W[L]W[L]、b[L]b[L]）

随后用新的训练集进行训练，就完成了迁移学习

CT训练数据少 == 只训练红色部分的参数，这个做法叫微调（Fine-Tuning）

CT训练数据多 == 只保留网络结构，重新训练wb。但是初始wb == 之前的模型的wb，这个过程称为预训练（Pre-Training）

什么时候使用迁移学习

买数据贵、数据少、小团队直接拿训练好的，发挥出自己的东西。

两个任务有同样的输入（比如都是图像或者都是音频）；

拥有更多数据的任务迁移到数据较少的任务；

某一任务的低层次特征（底层神经网络的某些功能）对另一个任务的学习有帮助。

多任务学习

直观理解

回想softmax，可以输入一张图，判断猫/狗/鸡。

多任务学习 == 输入一张图，同时判断是否存在猫狗鸡

多任务学习数据集里面的答案标签不再是 0或1 而是一个向量！多个图片的答案就是一个矩阵

对比：

Softmax 回归的输出向量 y 中只有一个元素为 1；而多任务学习的输出向量 y 中可以有多个元素为 1。

成本函数的变化

成本函数要改变成：累加C个的值（上图是4个），求平均值。

什么时候使用多任务学习

训练的一组任务可以共用低层次特征；（识别行人、红绿灯，背景可能都是马路）

通常，每个任务的数据量接近；（数据集中，包含的行人、红绿灯等物品的数量最好差不多，才发挥多任务的优势）

能够训练一个足够大的神经网络，以同时做好所有的工作。多任务学习会降低性能的唯一情况（即和为每个任务训练单个神经网络相比性能更低的情况）是神经网络还不够大。

端到端学习

什么是"端到端学习"

传统的机器学习分块模型 == 每一个模块处理一种输入，然后其输出作为下一个模块的输入，构成一条流水线。

端到端深度学习（End-to-end Deep Learning） == 只用一个单一的神经网络模型来实现所有的功能。

它将所有模块混合在一起，只关心输入和输出。

什么时候使用"端到端学习"（优点/缺点）

优点：

只要有足够多的数据，剩下的全部交给一个足够大的神经网络。比起传统的机器学习分块模型，可能更能捕获数据中的任何统计信息，而不需要用人类固有的认知（或者说，成见）来进行分析，往往比人类手工干预、手工设计的算法还要优秀；

所需手工设计的组件更少，简化设计工作流程；

缺点：

需要大量的数据；

排除了可能有用的人工设计组件；人类设计的算法帮不上忙，也不用不上。(计算机可能另一种角度表示逻辑，而不用人类强加设计、强加表示的语音/音符/音位等等)

决定一个问题是否应用端到端学习的关键点是：是否有足够的数据，支持能够直接学习从 x 映射到 y 。也有其他因素。

3.2 实战项目二（手工分析错误、错误标签及其修正、快速地构建一个简单的系统（快速原型模型）、训练集与验证集-来源不一致的情况（异源问题）、迁移学习、多任务学习、端到端学习）

手工分析错误

手工分析错误的大多数是什么

手工也可以分析多个错误类别

错误标签/错误标签的修正

训练集标签有错误怎么办

错误标签的修正

快速地构建一个简单的系统

训练集与验证集-来源不一致的情况（异源问题）

有时，我们很难得到来自同一个来源的训练/验证/测试集

异源时的拟合度分析

如何解决异源问题

迁移学习

什么是迁移学习

如何实现

什么时候使用迁移学习

多任务学习

直观理解

对比：

成本函数的变化

什么时候使用多任务学习

端到端学习

什么是"端到端学习"

什么时候使用"端到端学习"（优点/缺点）

优点：

缺点：

相关推荐