读书笔记:《大数据之路:阿里巴巴大数据实践》
文章目录
第1篇 数据技术篇
第2篇 数据模型篇
第9章 阿里巴巴数据整合及管理体系
9.1 概述
9.1.2 体系架构
业务板块:
规范定义:
模型设计:
9.2 规范定义
9.2.1 名词术语
9.2.2 指标体系
- 基本原则
- 组成体系之间的关系
- 命名约定
- 算法
- 算法概述
- 举例
- SQL 算法说明
- 操作细则
派生指标的种类:事务型指标、存量型指标、复合型指标
复合型指标的规则:比率型
第10章 维度设计
10.3 维度变化
10.3.1 维度变化维
数据仓库的重要特点之一是反映历史变化,维度的属性并不是静态的,只是变化相对缓慢。
如何处理维度变化:
- 重写纬度值:不保留历史记录
- 插入新的维度行:保留历史记录
- 添加维度列:保留历史记录,并且更灵活
10.4 特殊维度
10.4.1 递归层次
- 层次结构扁平化
- 层次桥接表
第11章 实事表设计
11.1 实事表基础
11.1.1 实事表特性
实事表有三种类型:事务实事表、周期快照表、累计快照实事表
11.1.2 事实表设计原则
原则1:尽可能包含所有与业务过程相关的事实
原则2:只选择与业务过程相关的事实
原则3:分解不可加性事实为可加的组件
原则4:在选择维度和事实之前必须先声明粒度
原则5:在同一个事实表中不能有多重不同粒度的事实
原则6:事实的单位要保持一致
原则7:对事实的 null
值要处理
原则8:使用退化维度提高实事表的易用性
11.1.3 实事表设计方法
- 第一步:选择业务过程及确定实事表类型
- 第二步:声明粒度
- 第三步:确定维度
- 第四步:确定事实
- 第五步:冗余维度
11.2 事务实事表
11.2.1 设计过程
- 选择业务过程
- 确定粒度
- 确定维度
- 确定事实
- 冗余维度