吴恩达深度学习笔记之结构化机器学习(一)

1.1 机器学习策略(ML Strategy)

我们在训练深度学习网络的时候,有一下一些策略,提高我们的网络性能。如下图所示:

吴恩达深度学习笔记之结构化机器学习(一)

1.2 正交化(Orthogonalization)

要弄好一个监督学习系统,我们需要调我们的系统旋钮确保四件事情。如下所示:

吴恩达深度学习笔记之结构化机器学习(一)

第一:确保在训练集上的结果不错,我们可以通过训练更大的网络,或者选择更好的优化算法。
第二:确保在开发集上不错,我们可以通过正则化或者数据扩充来解决开发集上的问题。
第三:确保在测试集上也不错,我么可以通过一个旋钮来增大开发集。
第四:我们希望成本函数的表现也可以,可以通过调整开发集或者改变成本函数。

1.3 单一数字评估指标(single number evaluation metric)

评估我们的分类器的一个合理方式是观察分类器的查准率和查全率。我们以一个猫分类器为例:

吴恩达深度学习笔记之结构化机器学习(一)

查准率(Precision):比如在我的分类器中标记为猫的例子中,有多少真的是猫,如果分类器A的有95%的查准率,这意为着我们的分类器说这图有猫的时候,有95%的机会真的是猫。
查全率(Recall):对于所有真猫的图片,我们的分类器正确识别出了多少百分比,实际为猫的图片中,有多少被系统识别出来。
事实证明,查准率和查全率之间往往需要折中,两个指标都要顾及到。所以我们有一个结合查全率和查准率的标准方法就是所谓的F1分数:

F1=21P+1R

我们称之为查准率和查全率的调和平均数。
还有一个分类器的平均误差也可以作为作为单实数评估指标。
实验证明,利用单实数评估指标真的可以提高我们的效率。

1.4 满足和优化指标

我们可以这样做将准确度和运行时间结合成一个整体评估指标,
我们以下述一个例子为例:

吴恩达深度学习笔记之结构化机器学习(一)

上述是三个分类器的指标,我们需要根据某些指标选择最适合我们的一个分类器,此时我们可以重新定义成本函数,如下。

cost=accuracy0.5×runingTime

根据这样一个成本函数我们来选择最优分类器。
其次,我们可能选择一个分类器A能够最大限度提高准确率,单必须满足时间要求,此时我们说。准确度为优化指标,而运行时间为满足指标。通过提供满足和优化指标,就可以给我们提供一个明确的方法去选择“最好的”分类器。

1.5 为什么是人的表现

我们首先来看下面一张图:

吴恩达深度学习笔记之结构化机器学习(一)
蓝色是人类的准确率,绿色是贝叶斯理论最佳准确率,而紫色是机器学习的准确率,我们可以知道,当机器学习的准确率接近人的表现后,就很难继续上升了。
下面我们看看为什么是与人的表现,下面这张幻灯片解释了原因。
吴恩达深度学习笔记之结构化机器学习(一)

1.6 可避免偏差

我们以下图为例,简单介绍一下什么是可避免偏差。

吴恩达深度学习笔记之结构化机器学习(一)

我们以人类的标准为基准。一般人类的误差接近于贝叶斯最优误差。训练集的误差与人类的误差的差距我们称之为可避免偏差。训练集误差和开发集误差之差我们称之为可避免方差。就是这样。