完美的决策树分类

问题描述:

想象一下,一组变量V和一组标签名T(分类标签)的值之间的所有已知映射的宇宙已知。此外,假设独特变量值组合的总空间很大(> 100B点),标签集合的大小相对较小(数千个元素),变量数量非常小(4-10)。完美的决策树分类

什么是建立一个分类功能,提供了一个完美的映射与下列时间和空间复杂度的目标(匹配,没有假阳性或假阴性的先验知识)的变量值标签的一个算法:

  • 时间复杂性为O下(| V | *登录| T |)
  • 空间复杂性为O更少(| V | ķ),K ≤ Ë

或者表述为:决策树问题:

  1. 如何决策树算法进行调整,以创造一个完美的映射?
  2. 如何有效地表示培训数据以保证?
+0

你还没有定义什么是“完美”的映射。 – phs 2013-04-04 05:58:13

+0

@phs好抓;固定。 – Sim 2013-04-04 06:00:03

+0

先前的知识是如何表示的?你如何能够说明任何实例属于哪个类,而不列举所有可能性?在我看来,* this *是你应该使用的分类规则,而不是试图让一棵决策树匹配这个先前的知识。也许如果你解释上下文? – 2013-04-04 15:08:12

你试图实现的任何决策树分类器都应该是可能的,它允许你以某种方式指定修剪的级别。这个想法是为了不让它做任何修剪。您最终得到的决策树每个训练实例(可能会)具有一个叶子(即非常大),但会以预测时间O(| V | * log | T |)给出“完美”的准确度。

这完全独立于训练数据如何表示(应该是)。唯一重要的是决策树诱导器可以读取并处理它。构建这种树的一种简单方法是为第一个示例添加路径,然后为第二个示例添加一个路径,依此类推。

这样的分类器在实践中是否会有用是一个完全不同的问题 - 在大多数情况下它不会。

+0

对,因此我对“好”算法有些模糊的定义。我将在空间复杂性和问题描述中的叶节点数量上指定更严格的界限。很显然,如果我们正在处理的问题很大并且不实用,那么您所描述的本机算法对于计算都是不切实际的。 – Sim 2013-04-04 16:00:49

+0

如果您想要高效的分类,为什么不简单地对所有实例的特征值进行哈希处理并将其与您想要预测的值进行关联? – 2013-04-04 16:02:06

+0

注意问题的大小是> 100B点。由于数据集中的更改而频繁映射更改。不切实际的缓存。 – Sim 2013-04-04 16:07:03