数据仓库简单梳理(数据挖掘前瞻)

数据仓库

知识发现流程
数据仓库简单梳理(数据挖掘前瞻)
数据清洗集成——数据仓库——选择迁移——数据挖掘——模式评估

数据仓库

数据仓库是一个面向主题的,集成的,时时变化的且非易失的数据集合
数据仓库的定义不严格,但普遍具有的特征:

  • 与数据库分开维护,独立决策
  • 通过数据分析提供信息处理方式

数据仓库的Subject-Oriented

  • 围绕核心主题
  • 关注数据建模和分析,而不是数据操作
  • 为决策提供简单可分析的视图

数据仓库的Integrated

  • 异构数据
  • 关系数据库,平面文件,联机事物

数据仓库的Time Variant

显而易见,数据仓库的时间跨度比数据库长

数据仓库的Nonvolatile

  • 物理隔离的存储
  • 数据不会像数据库长期更新

OLTP和OLAP

数据仓库简单梳理(数据挖掘前瞻)
OLTP(online transaction processing)

  • 针对DBMS,时时更新,看重数据操作
  • query驱动

OLAP(online analytical processing)

  • 针对DWS,看重数据分析
  • update驱动

###数据仓库的独立性
由于数据的来源和处理方式不同,所以数据仓库是独立于数据源的
#多维数据模型
多维数据模型是数据仓库的主要数据形式
数据仓库简单梳理(数据挖掘前瞻)

数据仓库的概念模型

  • Star schema:fact tables
  • Snowflake Schema:redine tables
  • Fact constellation:Multiple fact tables shared
    下面是几个栗子:

数据仓库简单梳理(数据挖掘前瞻)

数据仓库简单梳理(数据挖掘前瞻)

数据仓库简单梳理(数据挖掘前瞻)

典型OLAP操作

  • Roll up :数据求和
  • Drill down:转换数据层级例如:城市—国家
  • Slice and dice:选择(切片)
  • Pivot:旋转数据块

其他操作

  • Drill across/though
  • Rank top N or bottom N

数据仓库实现(理论)

  1. 通过DMQL定义和计算
  2. 通过cube转换SQL语言
  3. 通过计算机计算例如SQL查询
    数据仓库简单梳理(数据挖掘前瞻)