数据挖掘学习笔记一

数据挖掘学习笔记一

背景

  • 随着信息技术的不断发展,大量数据的产生和收集导致信息爆炸。
  • 使用者发现获取有用信息变得越来越困难。
  • 现代社会的竞争趋势要求对数据进行实时和深层次的分析。
  • 企业需要决策支持的新技术

数据仓库和数据挖掘

数据仓库(DW):面向主题的,集成的,随时间不断变化的数据集合。

数据挖掘(DM):从大量的数据中提取隐含的,未知的,可信而有效的知识。

数据仓库以及联机分析处理(OLAP)

数据仓库层次结构

数据挖掘学习笔记一

数据库,数据仓库与数据挖掘的关系?

  • 数据库、数据仓库是数据挖掘的对象
  • 数据挖掘并非一定要数据库、数据仓库的支持
  • 数据挖掘的对象可以是:文件、文本、图像、Web等结构化、半结构化或非结构化数据
  • 结合数据库、数据仓库等技术将增强数据挖掘的性能与效率

事务型系统和分析型系统分离
数据挖掘学习笔记一

数据仓库的四个特征

  1. 面向主题


    数据挖掘学习笔记一

  2. 集成

  3. 稳定性

数据挖掘学习笔记一

  1. 随时间而变化

数据仓库与传统数据库的区别

数据库 数据仓库
数据内容 当前值
数据目标 面向业务操作、重复处理
数据特性 动态变化,更新
数据结构 结构化、复杂、适于操作
使用频率
数据访问量 每次操作访问量少
相应时间要求

数据仓库的体系结构

数据挖掘学习笔记一

数据仓库系统 = ETL+数据存储+OLAP+客户端

ETL = 数据抽取+数据转换+数据清洗+数据装载

  • 数据抽取:提取系统分析必需的那一部分数据
  • 数据清洗:将错误的,不一致的数据在进入DW之前予以更正或删除
  • 数据转换:统一数据格式
  • 数据装载:数据传送到DW中

数据仓库存储

三种存储方式:多维数据库,关系数据库,两种方式结合

存放的数据:从业务系统中提取并经过清洗,转换的数据;OLAP分析和数据挖掘的需要增加的信息。

数据集市

面向主题在逻辑上和物理上划分出来的数据仓库中的数据子集,称为数据集市。

OLAP(Online Analysis Process)

满足在多维环境下特定的查询和报表需求。表示:(维1,维2,…维n,度量指标)

例如:(地区,时间, 产品,销售额)

数据仓库的数据组织

数据挖掘学习笔记一

数据粒度与数据分割

什么是粒度?

两种形式。

  • 综合度高低:数据仓库的数据单位中保存的数据细化或综合程度的级别。粒度越高,细节程度越低,综合程度越高。

数据挖掘学习笔记一

  • 抽样率:以一定的抽样率对DW中的数据进行抽样后得到一个样本数据库,粒度由抽样率的高低来划分。

数据分割

定义:将数据分散到各自的物理单元中以便能够独立处理,数据分割后的数据单元称为分片。

分割方法:按时间,地点,业务领域划分。最常用的方法是按照时间进行分割。

数据挖掘学习笔记一

数据仓库的数据组织形式

(1)简单堆积文件

将每天由业务数据库提取并处理后的数据逐天存储起来.。

(2)定期综合文件

数据存储单位被分成日,周,月,季,年等.首先数据被逐一添加到每天的数据集合中.当一个星期过去了,每天数据被综合成周数据,依次类推,周数据被综合成月数据…… 也叫轮转综合结构.

(3)连续文件

将定期综合文件和简单堆积文件综合起来.

数据仓库的数据追加和清理

1、数据追加

解决的是数据仓库初始数据装载后,如何再向数据仓库输入数据的问题。关键:捕获数据变化,并将数据的变化记录下来.

(1)时标法:为数据记录增加一个时间标记字段.

(2)前后快照比较法:将上次执行完数据追加任务的当前业务数据库快照记录下来,同要执行新的数据追加任务前的原先业务数据库快照进行比较,比较这两次快照的不同,来生成追加的内容.

(3)DELTA文件法:业务数据库应用程序将它执行成功的修改操作记录下来,形成DELTA作为追加的内容.

(4)日志文件法:通过分析数据库系统日志来获取数据的变化,得到追加内容.

2、数据仓库数据清理

不是指数据库清理和ETL所指的清理。

1)数据从操作型环境进入分析型环境.

2)数据从细节数据组建转换为综合数据.

3)数据从高速磁盘中转移到低速存储介质上.

4)数据失去实际意义,最终被清除.