数仓模型理论
1 数仓介绍
2 建模理论
建模的目标:性能、成本、效率、数据质量中找到平衡点
2.0 三范式
123要求逐渐严格
- 每一列不可分割
- 属性要完全依赖于主键,不可以只依赖一部分(数据重复很多)案例中主键是学生id和课程,所属系和系主任只依赖学生id
3. 主键以外的字段没有依赖关系
2.1 ER(Entity Relationship)实体模型
Bill Inom用这个建数仓,不现实,哪有那么多时间梳理所有的实体和关系,而且业务也在飞速变化,完全跟不上趟。
ods dwd 基本跟数据库来的数据是同等粒度的,自然符合er关系模型。
2.2 dataVault模型
初衷是有效的组织基础数据层,不是针对分析场景设计的
中心表就是实体id,连接表表示关系(两边的id),卫星表就是实体的描述。