数据挖掘概念

目录

为什么进行数据挖掘? 

什么是数据挖掘?

数据挖掘的流程 

在什么数据上进行挖掘?

可以挖掘什么类型的数据?

数据来源


为什么进行数据挖掘? 

我们拥有丰富的数据,但缺乏有用的信息。解决方法是:数据仓库技术和数据挖掘技术。

数据仓库(Data Warehouse)和在想分析处理(OLAP)-----为数据的存储和管理提供了基础。

数据挖掘(Data Mining):在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束) 

什么是数据挖掘?

数据挖掘就是从数据中发现知识,具体的说,就是从大量的数据当中挖掘出令人感兴趣的、有用的、隐含的、先前未知的、但又可能有用的模式或知识。数据挖掘又称KKD(数据库中的知识挖掘Knowledge-Discovery in Databases)、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等等。

数据挖掘的流程 

1、了解应用领域

2、创建目标数据集

3、选择数据,数据清洗和预处理,数据压缩和变换(其中数据预处理是耗时耗力的过程,占整个流程的60%-80%的时间)

4、选择数据挖掘的技术、功能和合适的算法,进行数据挖掘

5、寻找感兴趣的模式

6、模式评估

7、知识表示

在什么数据上进行挖掘?

数据是对事物描述的符号。在计算机科学中,数据是数字、文字、图像、声音等可以输入到计算机被识别的符号。
企业运营离不开数据。
用户生成数据(user generated data, UGD)

可以挖掘什么类型的数据?

从表现形式看:文字、数字、图像、声音等。

从存储形式看:分为结构化数据和非结构化数据。(结构化数据通过统一的二维表存储)

 一般将非结构化的数据处理成结构化的数据。

数据来源

关系型数据库、空间数据、多媒体数据、web网(用爬虫技术获得)

数据挖掘的方法和技术

数据挖掘概念

数据挖掘概念

数据挖掘概念数据挖掘概念