实例学习的基本概念
1.什么是实例学习 ?
实例学习是一种归纳学习方法,从大量的学习样本中归纳总结出相应的规则、概念。
<归纳推理不保真,因此要反复进行示例与归纳,避免归纳的错误结论影响最终结果>
实例学习的过程即在实例空间和规则空间中搜索、匹配的过程。
首先示教者给实例空间提供一些初始示教例子,由于示教例子的形式往往不同于规则的形式,程序必须对示教例子进行解释,然后再利用被解释的示教例子去搜索规则空间。并且要寻找一些合适的新的示教例子以解决规则空间中某些规则的歧义性。<解释例子+选择例子>
选择例子:根据规则空间,选择满足要求且效率高的例子。
解释例子:用选择的例子去产生或完善规则。
学习过程:不断循环选择例子和解释例子的过程,直到得到满足要求的规则。
在选择例子的过程中,示教正确例子的同时间隔地示教一些错误的例子,可以及时检验纠正学习过程中规则的偏移。
(1)实例空间:所有示教例子的集合。
(2)规则空间:所有预先设定的和归纳得到的规则的集合。
2.实例学习方法的分类
(1)按搜索规则空间的方法分类,可分为数据驱动方法和模型驱动方法。
1)变型空间法(version-space method) <数据驱动方法>
基本思路:对规则和实例采用同一种表示形式。初始的假设规则集H包括满足第一个示教例子和全部假设规则,在得到下一个示教例子时,对集合H进行一般化或特殊化处理,使其满足全部正例,不覆盖全部范例,最后使集合H收敛为仅含要求的规则。
2)改进假设法(hypothesis-refinement method) <数据驱动方法>
基本思路:表示规则和实例的形式不一定统一,系统根据输入的例子选择一种操作,用该操作去改进假设规则集H中的规则。
3)产生与测试法(generate and test) <模型驱动方法>
基本思路:针对示教例子反复产生和测试假设的规则,在产生假设规则时,使用基于模型的知识,以便只产生可能合理的假设。
4)方案示例法(schema instantiation) <模型驱动方法>
基本思路:使用规则方案的集合来约束可能合理的规则的形式,其中最符合示教例子的规则方案被认为是最合理的规则。
数据驱动方法
优点:可以逐步接受示教例子,以渐进方式学习,不断修改集合H。
缺点:可能因一个错误实例就会造成集合H的变化,引起系统的混乱,因为其是逐个使用当前新的实例去修改集合H。
模型驱动方法
优点:抗干扰性好。由于使用整个实例集合,系统就可以对假设进行统计测量。在用错误实例测试假设时,不会因为一、两个错误实例而放弃正确的假设。
缺点:难以逐步学习。其通过检查全部实例来测试假设,在使用新假设时,必须回溯或重新搜索规则空间,原来对假设的测试已不适用于新实例加入后的情况。
(2)按任务复杂程度分类
1)单概念学习
从概念空间(规则空间)中寻找某个与实例空间一致的概念。
提供给系统一个概念的若干正例和若干反例,系统由此构成规则空间,并可得到在这个规则空间中的一个概念,这个概念应该包含所有的正例,但不包含任何反例。
2)多概念学习
在概念空间中找出若干个概念描述,对每一概念描述,实例空间中均有相应的样本集合与之相应。
3)学习单步任务
4)学习多步任务