读书笔记:《大数据之路:阿里巴巴大数据实践》

第1篇 数据技术篇

第2篇 数据模型篇

第9章 阿里巴巴数据整合及管理体系

9.1 概述

9.1.2 体系架构

读书笔记:《大数据之路:阿里巴巴大数据实践》
业务板块:
规范定义:
模型设计:

9.2 规范定义

读书笔记:《大数据之路:阿里巴巴大数据实践》

9.2.1 名词术语

读书笔记:《大数据之路:阿里巴巴大数据实践》

9.2.2 指标体系

  1. 基本原则
    1. 组成体系之间的关系
    2. 命名约定
    3. 算法
      • 算法概述
      • 举例
      • SQL 算法说明
  2. 操作细则
    派生指标的种类:事务型指标、存量型指标、复合型指标
    复合型指标的规则:比率型

读书笔记:《大数据之路:阿里巴巴大数据实践》
读书笔记:《大数据之路:阿里巴巴大数据实践》

第10章 维度设计

10.3 维度变化

10.3.1 维度变化维

数据仓库的重要特点之一是反映历史变化,维度的属性并不是静态的,只是变化相对缓慢。
如何处理维度变化:

  1. 重写纬度值:不保留历史记录
  2. 插入新的维度行:保留历史记录
  3. 添加维度列:保留历史记录,并且更灵活
    读书笔记:《大数据之路:阿里巴巴大数据实践》
    读书笔记:《大数据之路:阿里巴巴大数据实践》

10.4 特殊维度

10.4.1 递归层次

读书笔记:《大数据之路:阿里巴巴大数据实践》
读书笔记:《大数据之路:阿里巴巴大数据实践》

  1. 层次结构扁平化
  2. 层次桥接表

第11章 实事表设计

11.1 实事表基础

11.1.1 实事表特性

实事表有三种类型:事务实事表、周期快照表、累计快照实事表

11.1.2 事实表设计原则

原则1:尽可能包含所有与业务过程相关的事实
原则2:只选择与业务过程相关的事实
原则3:分解不可加性事实为可加的组件
原则4:在选择维度和事实之前必须先声明粒度
原则5:在同一个事实表中不能有多重不同粒度的事实
原则6:事实的单位要保持一致
原则7:对事实的 null 值要处理
原则8:使用退化维度提高实事表的易用性

11.1.3 实事表设计方法

  • 第一步:选择业务过程及确定实事表类型
  • 第二步:声明粒度
  • 第三步:确定维度
  • 第四步:确定事实
  • 第五步:冗余维度

11.2 事务实事表

11.2.1 设计过程

  1. 选择业务过程
  2. 确定粒度
  3. 确定维度
  4. 确定事实
  5. 冗余维度

11.2.2 单事务事实表

11.2.3 多事务事实表

11.2.4 两种实事表对比

读书笔记:《大数据之路:阿里巴巴大数据实践》

第3篇 数据管理篇