属性加权通过遗传算法的属性加权人工免疫系统( AWAIS )及其应用心脏病和肝脏疾病的问题<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

 

摘要
现在越来越多的算法和应用涉及到了AIS。然而这种增长趋势所带来的成功研究表明,AIS并不是解决这些问题的有效方法,比如分类,回归,模式识别等。到目前为止,许多改进的AIS算法已经应用了距离或相似性测量的情况在实例基于学习(IBL)的算法。IBL主要依赖于他们所用的加权方式。这种加权想法在我们所用的遗传算法中决定属性的权重时,作为我们的研究目标,然后把这些权重应用到我们预先改进的AIS中(AWAIS。我们在两种医学疾病上(statlog心脏病和保柏肝脏疾病)评估了新算法的性能,我们也在这些问题上进行了与AWAIS的比较。在AWAIS和其他文献的分类法中,所获得的分类精度是非常好的
关键词:人工免疫系统;加权属性;遗传算法;分类偏差;医学分类
1 引言

   当新的复杂且难的问题出现的时候,现在问题的解决工作就会变得力不从心,且新的方法会应运而生。象人工神经网络(ANN),遗传算法(GA)都是由于其需要所产生的方法,而且他们把人工智能的概念带到了可解决的领域。
   人工免疫系统(AIS)是一个新的人工智能技术,它应用到了各种问题领域,比如分类,病毒检测,机器人学,优化等等。虽然大概上来说,它有很广泛的应用领域,但是它获得成功的研究结果并没有现有方法所获得的多。在这个研究领域,HartTimmis详细总结了产生这种现象的原因,并且他们在文献中总结和强调了在正确的研究领域使用正确方法的必要性 (Hart&Timmis,2005) 正如他们陈述的那样,生物免疫系统有解决复杂问题的潜能,但是这种潜能到目前为止没有被利用,因为在这些领域没有足够的模型。在我们以前的研究中,我们试着通过一种改进的属性加权的人工免疫系统来指出AIS算法的不足(Sahan,Kodaz,Gunes,&Polat,2004,2005)
   在改进的AIS中,系统需要一个代表性的方案来模仿免疫系统单元。样态空间(shape-space)表示方法就是这么一种方案,它已经被应用到每一个AIS(Perelson
&Oster,1979))。然而,从生物观点来说这个似乎是合理的,但是,在纯距离标准,如欧几里德和曼哈顿距离上,没有进行任何的分类偏差分析。而且,我们知道,分类偏差在分类系统中是必要不勉的。这样看来,这些类型的偏差必须在新的分类系统中出现,而且在分类方案或者代表性的方案中应该有所体现。基本的AIS算法类似于IBL算法,即在距离函数中所使用的,用来区分对象之间的分类和系统单元。除了类似于(Watkins,2001;Carter,2000),一些AIS无偏差的产生他们所需的单元。产生偏差的一个可能性就是从代表性的计划方案中产生。我们以前的研究中,(Sahan et al.,2004)试着能过产生权重属性来达到这个效果,然后把这些权重属性放在简单的AIS分类器中。在那个研究中,我们用数据集中的统计信息比如标准偏差和均值属性来计算权重。我们将AWAIS应用到了两种医学诊断问题上:Heart Disease and Diabetes disease 分类中,用的是UCI机器学习容器中的数据集。在文章中进行了与其他算法的比较,AWAIS取得了合理的结果,但是没有state-of-art works得到的结果好。(S?ahan,Kodaz, Gu¨ne?s,&Polat,2005)。在这篇文章中,我们得用GA来决定AIS分类中所用到的权重。从系统中所得到的成功结果促使我们将此方法用到真实世界的分类问题中。用到Statlog Heart Disease中分类的准确率为87.43%,用到BUPA Liver Disorders中结果也相当好,准确率为85.21%。正因为有这些数据,GA-AWAIS要比AWAIS表现的要好。在文章中也进行了二者的比较,证明了在Statlog Heart Disease and BUPA Liver Disorders 数据集中GA-AWAIS在应用到此数据集上的分类器中表现是的最好的,准确率是最高的。
  这篇文章的结构如下:下一章介绍AIS和权重属性的背景知识。再下一章介绍AWAIS,第四章是GA-AWAIS的配置。最后的56章介绍应用结果。
2 模式识别中的的权重属性

   在分类过程中,各个属性的贡献是不相同的。所以给定属性的权重也许可以权衡这些不平衡性,提高分类的准确率。加权特征已经在模式识别应用中使用很长时间了。
   Wettschereck,Aha,and Mohri(1997)的研究中,评论了具有五个方面的类的加权特征,偏差,加权空间,表示,概述和知识。(参照Wettschereck et al.,1997)。在这些方面,对偏差,他们把权重方法分成了两个方面:性能偏差方法和预置偏差方法。在性能偏差中,要使用分类器表述的反馈信息。在后一种偏差方法中,不使用反馈信息,他们利用现在数据的统计特征。性能偏差方法有它的优势:他们搜索权重特征指导了如何进行这些权重的进行。在文章当中,许多研究对两种偏差方法都使用,且产生了各种不同的分类器。大部分的研究成果要比无权重的纯算法好。
   我们的属性权重在AWAI以前的版本中使用的是数据集的统计信息(预置偏差)。但是,在这篇文章中,我们利用的是性能偏差方法。我们使用GA来决定最适合的权重来使分类错误达到最小。这样,AWAIS的分类准确率将会人作为权重方案的反馈信息。
2.2 人工免疫系统
3 AWAIS

  在系统中使用距离标准,也存在一些shape-space相关问题以防不相关的属性存在。Sahan et.al.的目的是要在Sahan et al.(2004)的研究中所使用的分类方法中重要属性上加上附属的属性,以达到分类的高准确率。这个可以通过使用一些操作集的统计信息来计算特征的权重,然后将这些属性用到距离计算上。这样做之后,系统即命名为加权属性的人工免疫系统(AWAIS),这个已经在(Sahan et al.,2004)中提出。
   AWAIS是一种简单的可管理的AIS,它使用了加权距离标准同时计算系统模块(Ab)和输入数据(Ag)之间的距离。这个系统可以参看图1
   在系统的成熟过程中,决定属性的权重的第一步是预处理。在这个阶段,一个类中每个属性的标准偏差计算出后,这个值的倒数作为相关类的属性的权重。按照这种方法,可以得到一个权重矩阵,矩阵中列表示属性权重,行表示每个类。这个加权矩阵会在AWAIS的主要成熟过程中使用。计算抗体和抗原之间的欧几里德距离时用下面的公式:
 
Attribute weighting via genetic algorithms for attribute 翻译
<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />
其中,Abj,kAfi,k分别是第K个属性的抗体和抗原。wj,k是属于Abj的第K个属性。迭代过程中包含以下步骤:
  1)对于每一个Agi 进行循环(i=1..N
     (1.1) 决定Agi类。调用此类的记忆抗体集,根据公式1计算抗体与抗原之间的距离。
     (1.2) 如果在计算的距离当中最小距离小于给定的初始抑制值,则返回第一步。
     (1.3) 为抗原形成记忆抗体集:
         重复以下步骤:
         (<?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" />1.3.1 ) 制造Ab集。Ab=[Ab_mem,Ab_rand],计算与抗原Agi的距离。
         (1.3.2 ) 选择最亲近的mAbs;克隆变异这些抗体(Ab_mutate).
         (1.3.3 ) m代上最亲近的Abs存入Ab_men中作为临时记忆集。
         (1.3.4) 定义最亲近的Ab作为Ab_cand,作为抗原Agi的候选记忆抗体。一旦此抗体与抗原的亲近值小于给定的初始值,那么停止迭代。
         (1.3.5) Ab_cand作为新的记忆抗体,并将其添加到Agi的矩阵中。
     (1.4)停止迭代。
   算法中的成熟机制在许多的AIS算法中均使用,称为是高频变异。而且如公式(2)所示,可以按成比例的计算两个单元之间的距离。
   Attribute weighting via genetic algorithms for attribute 翻译
Attribute weighting via genetic algorithms for attribute 翻译
   K邻进算法中,最终的记忆集Abs形成操作样本(training_samples)。也就是说,测试实例是靠此样本来进行分类的。
4 GA-AWAIS

   GA是一种自然优化算法,它是进化算法的一个分枝,用来模拟生物过程来处理一些相当复杂的功能。GA发展过程(省略)。
   GA的分类(省略)
   本文的研究中,在属性加权阶段用到了GA:我们的加权属性的目标是为了减少分类器在分类时产生的错误。我们用GA过程来为每个特性(分类器中最小化分类错误的特性)找到最合适的权重配置。这样,我们为GA的处理过程(交叉-变异-选择)形成了一个个体种群,这些个体代表了各个特性的权重。能过GA,可以为每个属性找到最优的权重。处理过程如下:

1 为每个类的特性权重产生初始值,形成初始群体。

特性个数:l

类数:m

每个个体是一个连续的字符串。这些连续值代表了权重,因为每个类有l个权重。l*m开成一个个体,换句话说,每个个体将由l*m的字符串表示

2 计算亲和力

  用一些测试数据进行测试。用AWAIS计算个体的代价值;然后,一些测试数据用来计算分类错误(以百分比的形式)。个体的代价值就是分类错误。最好的个体拥有最低的代价值。

3 选择最小代价值的个体

4 交叉变异

5 收敛性判定

以上的过程只是为每个类的特性决定权重。在ASAIS中,最佳个体会产生最小的分类错误,而且这个最佳个体人微言轻作为每个类的特性权重,被用到后到的AWAIS的迭代和测试过程中,
5 应用和结果

用到了两上医学问题上。
Attribute weighting via genetic algorithms for attribute 翻译
6 总结
  虽然AIS为解决复杂问题带来了新方法,但是我们不能完全肯定的说它解决了其他的系统问题,尤其是在分类领域。AIS分类器的一个主要问题是它们大多数没有考虑到分类的偏差。他们大多数采用纯数据标准来计算系统单元之间的亲和力。然而,现在,许多系统已经开始利用加权属性的概念来平衡属性之间的作用。现在已经提出了许多技术来进行权重的处理过程,而且在各自的领域已经证明了他们的高效率。
  在我们早期的研究中,我们提出了一种简单的AIS算法,命名为AWAIS,指出了以上提到的AIS分类器的缺点。那个研究在许多标准问题上是成功的,而且在一些医学分类问题上也是成功的。但是它在近期的一些疾病上并没有克服现在分类器的缺点。所以,在此篇文章中,我们用了一种完全不同的策略。我们使用了GA的处理过程,为每个属性找到最小分类错误的最佳权重。为了评估GA-AWAIS的分类性能,我们将其应用到了两种医学问题上取得了较好的效果。

 

 

 

读后感:
  此篇文章主要是在其原先提出的AWAIS系统上又加了GA的想法。将前期加权属性的思想不再是固定的,而且通过GA产生的最佳属性权重。最主要是就是两张图。