数据仓库简单梳理(数据挖掘前瞻)
数据仓库
知识发现流程
数据清洗集成——数据仓库——选择迁移——数据挖掘——模式评估
数据仓库
数据仓库是一个面向主题的,集成的,时时变化的且非易失的数据集合
数据仓库的定义不严格,但普遍具有的特征:
- 与数据库分开维护,独立决策
- 通过数据分析提供信息处理方式
数据仓库的Subject-Oriented
- 围绕核心主题
- 关注数据建模和分析,而不是数据操作
- 为决策提供简单可分析的视图
数据仓库的Integrated
- 异构数据
- 关系数据库,平面文件,联机事物
数据仓库的Time Variant
显而易见,数据仓库的时间跨度比数据库长
数据仓库的Nonvolatile
- 物理隔离的存储
- 数据不会像数据库长期更新
OLTP和OLAP
OLTP(online transaction processing)
- 针对DBMS,时时更新,看重数据操作
- query驱动
OLAP(online analytical processing)
- 针对DWS,看重数据分析
- update驱动
###数据仓库的独立性
由于数据的来源和处理方式不同,所以数据仓库是独立于数据源的
#多维数据模型
多维数据模型是数据仓库的主要数据形式
数据仓库的概念模型
- Star schema:fact tables
- Snowflake Schema:redine tables
- Fact constellation:Multiple fact tables shared
下面是几个栗子:
典型OLAP操作
- Roll up :数据求和
- Drill down:转换数据层级例如:城市—国家
- Slice and dice:选择(切片)
- Pivot:旋转数据块
其他操作
- Drill across/though
- Rank top N or bottom N
数据仓库实现(理论)
- 通过DMQL定义和计算
- 通过cube转换SQL语言
- 通过计算机计算例如SQL查询