结构化机器学习项目第一周 机器学习策略ML strategy

1.1 为什么是ML策略
结构化机器学习项目第一周 机器学习策略ML strategy
这节课将要将一些分析机器学习问题的方法,可以指引你朝着最有希望的方向前进。

1.2 正交化
正交化是使一个系统可以调节固定的按钮(knob)来可以达到一个方面的效果。如老电视有固定的按钮调节屏幕宽度,固定按钮调节屏幕高度,固定按钮调节屏幕角度等,最终可以使屏幕在电视正*。
下图细节会在以后讲到。
结构化机器学习项目第一周 机器学习策略ML strategy
early stopping同时影响两件事情-训练集和开发集,没有那么正交化,所以先用别的knob来tune.

1.3 单一数字评估指标
如果有一个单实数评估指标,进展可以快很多,它可以告诉你新尝试的手段比之前的好还是坏。

查准率precision和查全率recall。查准率是在你的分类器标记为猫的例子中,真猫的比例。
查全率是对所有真猫,你的分类器正确识别的比例。事实证明,precision和recall往往需要折中。
F1 score结合了查准率和查全率。可以看出来A比B表现更好。
结构化机器学习项目第一周 机器学习策略ML strategy
结构化机器学习项目第一周 机器学习策略ML strategy
结构化机器学习项目第一周 机器学习策略ML strategy

1.4 满足和优化指标
可以把准确度和运行时间组合成一个整体评估指标。我们说准确度是一个优化指标,因为想最大化准确度,运行时间是满足指标,它只需要小于100毫秒。可以看出B是最好的。
如果你要顾及多个指标,有时候选择其中一个指标作为优化指标是合理的,剩下的都是满足指标。
结构化机器学习项目第一周 机器学习策略ML strategy

1.5 训练/开发/测试集划分
![在这结构化机器学习项目第一周 机器学习策略ML strategy
正确做法是将八个地区的数据打乱,使开发集和测试集都有来自八个地区的数据。也就是说开发集和测试集要来自同一分布distribution,并且数据是随机的。
结构化机器学习项目第一周 机器学习策略ML strategy
设定开发集和评估指标都要瞄准你所希望的机器学习团队要瞄准的目标的数据。

1.6 开发集测试集的大小
现代机器学习中我们要操纵大规模数据集,一般把大量数据分到训练集,然后少量数据分到开发集和测试集,只要开发集可以评估不同的超参数等idea,测试集可以评估系统的总体表现。

1.7 什么时候该改变开发/测试集指标
算法A的错误率更低,但是会把色情图片当成猫推送给用户,站在公司和用户的角度这个肯定不能忍受,所以算法B是更好的。
其中一个修改评估指标的方法是加一个权重项w(i),这让算法将色情图片分类为猫图时误差项快速变大。
因此,如果你发现你的评估指标无法正确评估好算法的排名,就要重新定义一个新的评估指标。
结构化机器学习项目第一周 机器学习策略ML strategy

1.8 为什么是人的表现
贝叶斯(最优)误差是理论上可能达到的最优误差。
结构化机器学习项目第一周 机器学习策略ML strategy
机器学习算法在未达到人的水平的时候进步很快,但是超过人的水平后进步就很慢了。一个原因是人的表现可能很接近贝叶斯误差,一个原因是在达到人的水平之前,我们有很多工具可以用来提高算法性能,如:得到更多人为标记的数据,得到人为误差分析:为什么人可以做对,得到更好的偏差和误差分析。

1.9 可避免偏差
人的误差率和训练集的误差率的差值表现的是偏差,也是avoidable bias可避免偏差,训练集的误差率和开发集的误差率的差值表现的是方差。
可以看出第一个例子应该关注减少偏差,使用更大的神经网络或者训练更长的时间等;第二个例子应该关注减少方差,使用正则化或者使用更大的训练集等。
结构化机器学习项目第一周 机器学习策略ML strategy

1.10 理解人的表现
人类水平误差被定义为,如果你想要替代或估计贝叶斯误差,就是最低的0。5%.
结构化机器学习项目第一周 机器学习策略ML strategy
第一个例子人类水平误差怎么定义没有多大影响,应该关注减少偏差;第二个例子怎么定义人类误差水平也没多大影响,应该关注减少方差。第三个例子贝叶斯误差必须定为0.5%,所以关注的应该是减少偏差(模型已经很好拉)。
结构化机器学习项目第一周 机器学习策略ML strategy

1.11 超过人的表现
结构化机器学习项目第一周 机器学习策略ML strategy
左边的例子可避免偏差是0.1%方差是0.2%,可能减少方差更重要一点;在右边的例子中没有足够的信息来说明应该减少偏差还是减少方差,它不意味着模型不能被改进了,意味着传统的判断方法不能用了。
现在已经有很多机器学习系统可以超过人类水平了,如以下四个例子,这四个例子都是从结构化数据中学习得到的,也就是有大的已知数据库,并不是自然感知问题如语音识别计算机视觉自然语言处理。
结构化机器学习项目第一周 机器学习策略ML strategy

1.12 改善模型表现
总结这节课的内容,改善模型表现需要做到两个方面,一个是很好地拟合训练集,也就是使可避免偏差小,一个是使训练集的表现可以推广到开发集和测试集,也就是使方差小。
通过正交化的思想达到这两个目标的方法有:
结构化机器学习项目第一周 机器学习策略ML strategy