确定执行的优先级以及误差分析

本节我们讨论在设计一个机器学习的系统时,应该先做什么后做什么。

我们以垃圾邮件分类为例:

 

确定执行的优先级以及误差分析

特征向量:

确定执行的优先级以及误差分析

我们发现很多遇见故意拼错单词,从而逃避被视为垃圾邮件:

确定执行的优先级以及误差分析

正确的步骤:

我们应该先实现一个简单粗暴的算法,然后将邮件进行分类,

接着手动的去将分错了的邮件重新分类,并且归纳出分错邮件的特征,从而增加我们的特征个数,

在判断是否要使用提取词干、区分大小写等方法时,我们直接先用交叉验证集来计算误差,看是否减小了误差率,有效则使用,无效则不使用。

重点在于,首先实现一个简单粗暴的算法,然后根据检测的结果,从而确定接下来应该重点去做哪个方面的事,而不是一开始就花大量的时间去构造复杂的算法。

确定执行的优先级以及误差分析

确定执行的优先级以及误差分析

确定执行的优先级以及误差分析