《数据挖掘导论》学习 | 第十章 异常检测

第十章 异常检测

预备知识

异常的成因

  • 数据来源于不同的类
  • 自然变异
  • 数据测量和收集误差

异常检测方法

  • 基于模型的技术:与事先建立的数学模型不能完美拟合的对象
  • 基于邻近度的技术:基于距离的离群点检测技术
  • 基于密度的技术:对象的密度估计可以相对直接地计算

类标号的使用

  • 监督的异常检测:存在正常类和异常类的数据集
  • 非监督的异常检测:没有类标号
  • 半监督的异常检测:训练数据包含被标记的正常数据,但是没有关于异常对象的信息

问题

  • 用于定义异常的属性个数
  • 全局观点与局部观点
  • 点的异常程度:异常或离群点得分
  • 评估
  • 有效性

统计方法

离群点是一个对象,关于数据的概率分布模型,具有低概率
问题:

  • 识别数据集的具体分布
  • 使用的属性个数
  • 混合分布

检测一元正态分布中的离群点

《数据挖掘导论》学习 | 第十章 异常检测

多元正态分布的离群点

《数据挖掘导论》学习 | 第十章 异常检测
《数据挖掘导论》学习 | 第十章 异常检测

异常检测的混合模型方法

《数据挖掘导论》学习 | 第十章 异常检测
《数据挖掘导论》学习 | 第十章 异常检测

基于邻近度的离群点检测

一个对象的离群点得分由到它的k-最近邻的距离给定

基于密度的离群点检测

基于密度的离群点:一个对象的离群点得分是该对象周围密度的逆
《数据挖掘导论》学习 | 第十章 异常检测
使用相对密度的离群点检测
《数据挖掘导论》学习 | 第十章 异常检测
《数据挖掘导论》学习 | 第十章 异常检测

基于聚类的技术

  • 丢弃远离其他簇的小簇
  • 首先聚类所有对象,然后评估对象属于簇的程度
    《数据挖掘导论》学习 | 第十章 异常检测
    评估对象属于簇的程度:度量对象到簇原型的距离,使用Mahalanobis距离
    离群点对初始聚类的影响:对象聚类,删除离群点,对象再次聚类
    使用簇的个数
    优点:时间空间复杂度为线性或接近线性,高度有效
    缺点:产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性