数据挖掘学习笔记三
数据挖掘学习笔记三**
数据仓库模型设计及数据仓库建立
数据仓库系统的设计与数据库系统设计的区别
数据库系统设计 | 数据仓库系统设计 |
---|---|
面向的处理类型 | 面向应用 |
应用需求 | 比较明确 |
系统设计的目标 | 事务处理的分析性,安全性,高效性 |
数据来源 | 业务操作员的输入 |
系统设计的方法 | 需求驱动 |
数据仓库设计分为两个部分
数据仓库模型设计
概念模型设计
逻辑模型设计
- 物理模型设计
数据装载接口的设计
相关概念
数据模型是对现实世界的反映和抽象,它可以充分体现用户的业务需求,清楚地表达各个部门之间的相关性,有效地消除冗余数据。
- 概念模型描述的是客观世界到主观世界的映射。
- 逻辑模型描述的是主观世界到关系模型的映射。
- 物理模型描述的是关系模型到物理实现的映射。
数据仓库的概念模型设计
两种方法:E-R模型;面向对象的分析方法.
ER模型:
E-R图
- 长方形表示实体,即主题.
- 椭园形表示主题的属性
- 无向边:把主题与其属性连接起来.
- 有向边:表示主题之间的联系.
实例:
面向对象的分析方法
类是对某种类型事物的抽象,将这类事物所有的共同特征集中起来。如:学生类,教师类
类之间存在三种关系:继承,包容和关联
数据仓库的逻辑模型设计
1)分析主题、确定当前要装载的主题
2)确定数据粒度的选择
3)确定数据分割的策略
-
4)增加导出字段
导出数据是事先在原始数据的基础上进行总结或计算而生成的数据.
-
5)定义关系模式
定义各主题的信息表,表之间依靠公共码联系.
-
6)定义记录系统
指明数据仓库中关系表各字段来源于哪个业务DB.
数据仓库的物理模型设计
存储结构
-
分布式存储方式
采用多个节点分布的方式来存储数据.节点之间通过互连I/O来进行相互通信.
-
集中式数据存储方式
将现有的存储区域网或网络附加存储系统作为服务器的存储部分.每个节点通过交换机直接访问所有的数据而不需要经过其他节点.
索引策略
B-Tree索引、位图索引、广义索引、连接索引
数据存储策略
1.合并表:将多个表中相互关联的记录相邻存储.
2.建立数据序列:数据在磁盘上分布在不同数据盘块上,即物理盘块上,按照处理顺序放在一个或多个物理块上.
3.按列存储:一张表中同一列的数据相邻存储.
4.分割表的存储:把大表分割存储,提高访问效率.
数据仓库的建立过程
需求分析
需求的分析过程贯穿在整个设计过程.数据仓库建立在原有的运行系统之上,因此,要与原有系统项目负责人,部门管理人员,DSS分析员,技术人员交流.
需求定义文档的提纲
- 1)绪论
- 2)总体需求描述
- 3)具体需求
- 4)指标及维度
- 5)其他需求
- 6)用户期望
- 7)用户参与
- 8)综合实施计划
数据路线
- 1.概念模型设计
- 2.逻辑模型设计
- 3.物理模型设计
- 4.数据装载接口设计.
技术路线
- 1.操作型基础构造:包括:人员, 流程, 培训和管理软件.
- 2.物理基础构造
应用路线
- OLAP模型设计
- 数据挖掘模型设计
- 信息传递
数据仓库部署
运行维护
提高数据仓库性能
- 1)提高I/O性能.
- 2)缩小查询范围
- 划分粒度
- 分割数据表
- 建立索引
- 3)采取并行优化技术
- 4)选择适当的初始化参数