麻省理工公开课人工智能笔记十

本篇主要讲识别树的相关知识,以如何辨别吸血鬼为例

首先给出了一组数据

麻省理工公开课人工智能笔记十

在这个数据集中,有几个明显的特征

①数据全是符号,没有数字

②特征数据并不全部有用

③有些测试可能代价很大

所以我们无法使用最近邻算法去确定一个有特定特征的人是否为吸血鬼。

我们可以建立一个测试树进行测量,就像这样,称其为识别树

麻省理工公开课人工智能笔记十

好的识别树的标准就是代价最小

分析前面给出的数据,我们可以画出四个测试的测试树

麻省理工公开课人工智能笔记十

+代表是吸血鬼,-代表不是,中间是测试的不同结果。

理想的测试应当将所有普通人放到一个子集中,所有吸血鬼放到一个子集中,不过显然我们做不到这一点,但是我们可以数数四个测试中同质子集中的个体数目,从左到右依次是4、3、2、0。通过这个测试,我们可以得出结论,最好的测试是影子测试,其次是大蒜测试,再次是面色,最后是口音测试,所以我么首选影子测试

画出其识别树

麻省理工公开课人工智能笔记十

将影子测试为?的内容重新进行测试

麻省理工公开课人工智能笔记十

同质子集中数目分别为4、2、0,首选打大蒜测试

麻省理工公开课人工智能笔记十

于是就可以完全将普通人和吸血鬼分开。

然而对于大数据集,上面的测试就无效了,我们需要更精妙的测试,我们需要衡量这些测试在分支最低端得到的集合的无序度,从而得到一个关于测试的总体质量值,基于对无序度的测量。

数据处理学家通常用下面这条公式

麻省理工公开课人工智能笔记十

D是指无序度,P指测试数据中为证的数目,N指测试数据中为负的数目

取两个特例

麻省理工公开课人工智能笔记十

可以得到函数的图像

麻省理工公开课人工智能笔记十

是哪个类似圆拱形的,这是一种很精妙的模型。

所以测试的总体质量可以用无序度与其权重的积求和来表示

麻省理工公开课人工智能笔记十
权重用集合中测试数除于总测试数表示。

使用这个方法应用回之前的四个测试中

麻省理工公开课人工智能笔记十

四个测试的无序度分别是0.5、0.6、0.7、0.95,有一些用的是估计值,仍然可以得出最好的是影子测试。

第二布同样

麻省理工公开课人工智能笔记十

可以选出大蒜测试

这个方法应用在有数值的测试中,比如上一节课的插座盖例子中

麻省理工公开课人工智能笔记十

可以得到后面这个测试界限。