第一节、绪论

1、什么是数据挖掘

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。

2、数据挖掘与传统数据分析相比而具有的优势

传统的数据分析常常会遇到如下的困难:

(1)数据挖掘算法要处理的数据是海量的,因此要求算法是可伸缩的,传统算法则不行。

(2)现在,数据集的常常具有成千上百的属性,为低维数据开发的传统数据分析技术不能很好地处理这样的高维数据。

(3)传统的数据分析方法只能处理包含相同类型属性的数据集,而数据挖掘可以处理异种属性和复杂的数据对象。

(4)对于要分析的数据并非存放在一个站点的时候,就需要开发分布式数据挖掘技术。

(5)传统的统计方法是基于假设-检验模式,即提出一种假设,设计实验来收集数据,然后针对假设分析数据。当前的数据分析任务常常需要产生和评估数以千计的假设,因此希望自动地产生评估和假设导致了数据挖掘技术的开发。

3、数据挖掘和其它领域的关系

第一节、绪论

4、数据挖掘任务

两大类:

  • 预测任务:目标是根据其它属性(说明变量或自变量)的值,预测待定属性(目标变量或因变量)的值。
  • 描述任务:目标是导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常)。

细分成4小类:

预测建模:以说明变量函数的方式为目标变量建立模型。有俩类预测建模的任务:

  1. 分类,用于预测离散的目标变量;比如根据身高属性预测某个学生的性别
  2. 回归,用于预测连续的目标变量;比如预测某股票的未来价格是回归任务,因为价格具有连续值属性。

关联分析:用来发现描述数据中强关联特征的模式。比如如下的一组销售数据,关联分析可以用来发现某种规则,如购买尿布的顾客多半会购买牛奶,即{尿布}->{牛奶}。发现这样的规则就可能帮助商家实现交叉销售的机会。

第一节、绪论

聚类分析:旨在发现紧密相关的观测值簇群,使得与属于不同簇的观测值相比,属于同一簇的观测值之间尽可能相似。比如文本聚类的主要思想就是如此,如下是新闻文章的集合,把每篇文章表示成词-频率对的集合。前四篇文章作为一个簇,对应新闻经济;后四篇文章作为第二个簇,对应卫生保健。聚类算法就是能够根据文章中出现的词的相似性,识别这两个簇。

第一节、绪论

异常检测:识别其特征显著不同于其它数据的观测值。这样的观测值称为异常点或离群点。比如信用卡欺诈检测,与合法交易相比,欺诈行为的数目相对较少,因此异常检测技术可以用来构造用户合法交易的轮廓。当一个新的交易到达时就与之比较,若很不相同就将该交易标记为可能是欺诈。

5、启航

在后面内容中将从算法的角度介绍数据挖掘使用的主要原理和技术。

数据分析的基础

  • 第二节:讨论数据的基本类型,数据质量,预处理技术,相似性和相异性的度量。
  • 第三节:讨论数据探查,汇总统计,可视化技术,联机分析处理。

分类问题:

  • 第四节:讨论判定树分类,分类中的问题(过拟合,性能评估,不同分类模型的比较)
  • 第五节:讨论其它分类技术:基于规则的系统,最近分类器,贝叶斯分类器,人工神经网络,支持向量机以及组合分类器
  • 第五节(附加):多类问题和不平衡类问题

关联分析:

  • 第六节:介绍关联分析的基础:频繁项集,关联规则以及产生关联规则的算法,特殊类型频繁项集
  • 第七节:介绍如何将关联分析用于分类数据和连续数据;如何扩展关联分析,以便发现序列模式、图中的模式、负联系

聚类分析:

  • 第八节:介绍簇的不同类型,三种特定的聚类技术(K均值,凝聚层次聚类,DBSCAN),验证聚类算法结果的技术。
  • 第九节:模糊聚类,概率聚类,自组织映射(SOM),基于图的聚类,基于密度的聚类,可伸缩问题,选择聚类算法需要考虑的因素。

异常检测:

  • 第十节:异常检测的类型:基于统计的,基于距离的,基于密度的,基于聚类的