数据挖掘概述

一、数据挖掘的概念

●数据挖掘(DM,Data Mining),是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。

●数据挖掘是一个交叉学科,设计数据库技术、机器学习、统计学、人工智能、模式识别、高性能计算、知识工程、神经网络、信息检索、信息的可视化等众多领域。

●常见的数据挖掘的对象有以下七大类:
(1)关系型数据库、事务型数据库和面向对象的数据库。
(2)数据仓库/多维数据库:
将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。
(3)空间数据(如地图信息)。
(4)工程数据(如建筑、集成电路信息)
(5)文本和多媒体数据。
(6)时间相关数据。
(7)万维网。

二、数据挖掘的特性

在大数据时代,数据的产生和收集是基础,数据挖掘是关键。

(1)应用性:数据挖掘是理论算法和应用实践的完美结合。数据挖掘来源于应用实践,也服务于应用实践。
(2)工程性:数据挖掘是一个由多个步骤组成的工程化过程。且在实际应用中,典型的数据挖掘还是一个交互和循环的过程。
(3)集合性:数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据搜索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的案例往往涉及多个功能,不同的功能通常有不同的理论和技术基础,且每一个功能都有不同的算法。

三、数据挖掘的过程

数据挖掘概述 **第一阶段:业务理解。**深刻理解业务需求,在此基础上制定数据挖掘的目标和实现目标的计划。
**第二阶段:数据理解。**收集数据、熟悉数据、识别数据的质量问题,并搜索引起兴趣的子集。
**第三阶段:数据准备。**从收集来的数据中选择必要的属性,并按关联关系将其连成一个数据集。再进行数据清洗,即空值和异常值处理、离群值剔除和数据标准化等。
**第四阶段:数据建模。**使用不同的数据挖掘技术,并确定模型最佳的参数。
**第五阶段:模型评估。**对建立的模型进行可靠性评估和合理性解释,未经过评估的不能进行应用。
第六阶段:部署。