(4)数仓建设-数据仓库命名规则

目录

1.表属性规范-1

1.常规表

2.中间表

3.临时表

4.维度表

5.手工表

6.指标

2.表属性规范-2

1.ODS层表名 

2.DW事实表表名

3.DW/DM维度表表名

4.元数据表名

3.其他数据库对象


1.表属性规范-1

1.常规表

常规表是我们需要固化的表,是正式使用的表,是目前一段时间内需要去维护去完善的表。

规范:分层前缀[dwd|dws|ads|bi]_业务域_主题域_XXX_粒度。 

业务域、主题域我们都可以用词根的方式枚举清楚,不断完善,粒度也是同样的,主要的是时间粒度小时(H)、日(D)、月(M)、年(Y)、周(W)、实时(REAL_T)等,使用词根定义好简称。

指标体系中有很多“率”的指标,都可以拆解成XXX+率,率可以叫rate,那我们所有的指标都叫做XXX+rate。词根可以用来统一表名、字段名、主题域名等等。

2.中间表

中间表一般出现在Job中,是Job中临时存储的中间数据的表,中间表的作用域只限于当前Job执行过程中,Job一旦执行完成,该中间表的使命就完成了,是可以删除的。

规范:mid_table_name_[0~9|dim]

table_name是我们任务中目标表的名字,通常来说一个任务只有一个目标表。这里加上表名,是为了防止*发挥的时候表名冲突,而末尾大家可以选择*发挥,起一些有意义的名字,或者简单粗暴,使用数字代替,各有优劣吧,谨慎选择。通常会遇到需要补全维度的表,这里我喜欢使用dim结尾。中间表在创建时,请加上 ,如果要保留历史的中间表,可以加上日期或者时间戳。

3.临时表

临时表是临时测试的表,是临时使用一次的表,就是暂时保存下数据看看,后续一般不再使用的表,是可以随时删除的表。

规范:tmp_xxx

只要加上tmp开头即可,其他名字随意,注意tmp开头的表不要用来实际使用,只是测试验证而已。

4.维度表

维度表是基于底层数据,抽象出来的描述类的表。维度表可以自动从底层表抽象出来,也可以手工来维护。

规范:dim_xxx

维度表,统一以dim开头,后面加上,对该指标的描述,可以*发挥。

5.手工表

手工表是手工维护的表,手工初始化一次之后,一般不会自动改变,后面变更,也是手工来维护。一般来说,手工的数据粒度是偏细的,所以,暂时我们统一放在dwd层,后面如果有目标值或者其他类型手工数据,再根据实际情况分层。

规范:dwd_业务域_manual_xxx

手工表,增加特殊的主题域,manual,表示手工维护表。

6.指标

指标的命名也参考词根,避免出现同一个指标,10个人有10个命名方法。

 

2.表属性规范-2

相对于规范1,规范2简单一点。

1.ODS层表名 

ODS_应用系统名(缩写)_数据表名 

例如:ODS_FUN_CUSTOMERINFO,表名长度不超过30个字符,如果ODS设计采用贴源设计,数据表名应与源系统一致。

(4)数仓建设-数据仓库命名规则 

2.DW事实表表名

DW_主题名(缩写)_功能描述 

例如:DW_ORD_DETAIL,表名长度不超过30个字符。

(4)数仓建设-数据仓库命名规则

3.DW/DM维度表表名

    D_ 。数据表名称必须以有特征含义的单词或缩写组成,中间可以用“_”分割

   例如:D_ACCOUNT、D_PUB_DATE,表名称不能用双引号包含,表名长度不超过30个字符。

(4)数仓建设-数据仓库命名规则

4.元数据表名

M_应用名(缩写)_功能描述 

例如:M_ETL_TASK。表名称不能用双引号包含,表名长度不超过30个字符。

(4)数仓建设-数据仓库命名规则

3.其他数据库对象

               视图

      前缀为V_。按业务操作命名视图。

     物化视图

      前缀为MV_。按业务操作命名实体化视图。

     存储过程

      前缀为SP_ 。按业务操作命名存储过程。

     触发器

      前缀为Trig_ 。触发器名应是 前缀 + 表名 + 触发器名。

     函数

      前缀为Func_ 。按业务操作命名函数。

     数据包

      前缀为Pkg_ 。按业务操作集合命名数据包。

     序列

      前缀为Seq_ 。按业务属性命名。

     普通变量

      前缀为Var_ 。 存放字符、数字、日期型变量。

     游标变量

      前缀为Cur_ 。存放游标记录集。

     记录型变量

      前缀为Rec_ 。 存放记录型数据。

     表类型变量

      前缀为Tab_ 。 存放表类型数据。

     数据库链接

      前缀为dbl_ 。 表示分布式数据库外部链接关系。