数据挖掘学习笔记一
数据挖掘学习笔记一
背景
- 随着信息技术的不断发展,大量数据的产生和收集导致信息爆炸。
- 使用者发现获取有用信息变得越来越困难。
- 现代社会的竞争趋势要求对数据进行实时和深层次的分析。
- 企业需要决策支持的新技术
数据仓库和数据挖掘
数据仓库(DW):面向主题的,集成的,随时间不断变化的数据集合。
数据挖掘(DM):从大量的数据中提取隐含的,未知的,可信而有效的知识。
数据仓库以及联机分析处理(OLAP)
数据仓库层次结构
数据库,数据仓库与数据挖掘的关系?
- 数据库、数据仓库是数据挖掘的对象
- 数据挖掘并非一定要数据库、数据仓库的支持
- 数据挖掘的对象可以是:文件、文本、图像、Web等结构化、半结构化或非结构化数据
- 结合数据库、数据仓库等技术将增强数据挖掘的性能与效率
事务型系统和分析型系统分离
数据仓库的四个特征
-
面向主题
集成
稳定性
- 随时间而变化
数据仓库与传统数据库的区别
数据库 | 数据仓库 |
---|---|
数据内容 | 当前值 |
数据目标 | 面向业务操作、重复处理 |
数据特性 | 动态变化,更新 |
数据结构 | 结构化、复杂、适于操作 |
使用频率 | 高 |
数据访问量 | 每次操作访问量少 |
相应时间要求 | 快 |
数据仓库的体系结构
数据仓库系统 = ETL+数据存储+OLAP+客户端
ETL = 数据抽取+数据转换+数据清洗+数据装载
- 数据抽取:提取系统分析必需的那一部分数据
- 数据清洗:将错误的,不一致的数据在进入DW之前予以更正或删除
- 数据转换:统一数据格式
- 数据装载:数据传送到DW中
数据仓库存储
三种存储方式:多维数据库,关系数据库,两种方式结合
存放的数据:从业务系统中提取并经过清洗,转换的数据;OLAP分析和数据挖掘的需要增加的信息。
数据集市
面向主题在逻辑上和物理上划分出来的数据仓库中的数据子集,称为数据集市。
OLAP(Online Analysis Process)
满足在多维环境下特定的查询和报表需求。表示:(维1,维2,…维n,度量指标)
例如:(地区,时间, 产品,销售额)
数据仓库的数据组织
数据粒度与数据分割
什么是粒度?
两种形式。
- 综合度高低:数据仓库的数据单位中保存的数据细化或综合程度的级别。粒度越高,细节程度越低,综合程度越高。
- 抽样率:以一定的抽样率对DW中的数据进行抽样后得到一个样本数据库,粒度由抽样率的高低来划分。
数据分割
定义:将数据分散到各自的物理单元中以便能够独立处理,数据分割后的数据单元称为分片。
分割方法:按时间,地点,业务领域划分。最常用的方法是按照时间进行分割。
数据仓库的数据组织形式
(1)简单堆积文件
将每天由业务数据库提取并处理后的数据逐天存储起来.。
(2)定期综合文件
数据存储单位被分成日,周,月,季,年等.首先数据被逐一添加到每天的数据集合中.当一个星期过去了,每天数据被综合成周数据,依次类推,周数据被综合成月数据…… 也叫轮转综合结构.
(3)连续文件
将定期综合文件和简单堆积文件综合起来.
数据仓库的数据追加和清理
1、数据追加
解决的是数据仓库初始数据装载后,如何再向数据仓库输入数据的问题。关键:捕获数据变化,并将数据的变化记录下来.
(1)时标法:为数据记录增加一个时间标记字段.
(2)前后快照比较法:将上次执行完数据追加任务的当前业务数据库快照记录下来,同要执行新的数据追加任务前的原先业务数据库快照进行比较,比较这两次快照的不同,来生成追加的内容.
(3)DELTA文件法:业务数据库应用程序将它执行成功的修改操作记录下来,形成DELTA作为追加的内容.
(4)日志文件法:通过分析数据库系统日志来获取数据的变化,得到追加内容.
2、数据仓库数据清理
不是指数据库清理和ETL所指的清理。
1)数据从操作型环境进入分析型环境.
2)数据从细节数据组建转换为综合数据.
3)数据从高速磁盘中转移到低速存储介质上.
4)数据失去实际意义,最终被清除.