数据仓库、 OLAP及数据立方体计算

什么是数据仓库

有多种但并不严格的定义

面向主题的：围绕主题组织, 如消费者（customer）、产品（ product），销售量（sales）等。主要目的是对数据建模与分析，以便于决策者的决策过程，而不是日常操作与事物处理。
集成的：集成多个、异构数据源
时变的：数据仓库跨越的时间比操作数据库要长的多。
操作数据库: 当前值数据。
数据仓库: 从历史的视角提供信息（如过去5-10的数据）
非易失的：与操作数据库分隔存储。操作数据库的数据更新不在数据仓库环境出现。仅仅需要以下2种操作: 数据的初始装载与数据访问。

联机事物处理 (OLTP ，on-line transaction processing)

联机分析处理 (OLAP，on-line analytical processing)

数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算

使得操作数据库与数据仓库都获得高性能
DBMS—OLTP: 访问方法, 索引, 并发控制, 数据恢复。
Warehouse—OLAP: 复杂OLAP查询, 多维视图, 整理。
对数据与功能的要求不同:
丢失的数据: 决策支持需要历史数据，而传统数据库并不一定维护历史数据。
数据整理: 决策支持需要对异构数据源进行数据整理。
数据质量: 不同的数据源常常具有不一致的数据表示，编码结构与格式。

数据仓库基于多维数据模型，以数据立方体的形式对数据进行观察。
数据立方由维和度量组成

数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算

建模数据仓库: 维 & 度量

数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算

事实星座（Fact constellations）: 多个事实表分享共同的维表，这种模式可以看作星型模式的集合，因此称为星系模式（galaxy schema）或事实星座。

数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算

分布式的（distributive）: 一个聚集函数是分布的，如果它能以以下分布式进行计算:如果将函数用于n个聚集值得到的结果，与将函数用于所有数据得到的结果一样，则该函数可以用分布式计算。
如, count(), sum(), min(), max().
代数的（algebraic）: 一个函数是代数的，如果它能够由一个具有M个参数的代数函数计算（其中M是一个有界整数），而每个参数都可以用一个分布聚集函数得到。
如, avg(), standard_deviation().
整体的（holistic）: 如果描述它的子聚集所需的存储没有一个常数界，即不存在一个具有M个参数的代数函数进行这一计算（其中M是常数）。如, median()（中位数）, mode()（出现次数最多的数，众数）等。

数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算