实时数仓架构设计

整体架构图

实时数仓架构设计

 

数据订阅同步(ODS)

实时流订阅

前期同步 binlog,埋点数据

离线数仓同步

根据实时数仓业务需要,同步相应离线数仓维表

 

实时数仓(DW)

数据明细层(DWD)

订阅来自 ODS 层的流数据,过滤无效数据,测试数据等,保留明细数据流

数据分流层

根据订阅流中不同 topic,分流不同数据,如总日志埋点数据中,经过分流层后,可分流出不同业务的日志数据(订餐埋点,广告埋点等),分流的 topic 可以通过维护元数据表来进行 Join

数据汇总层(DWS)

根据不同业务对流式数据进行汇总,主题 + 时间 + 原子指标三个维度组合进行统计,通过 JOIN 离线业务表来进行数据维度的扩展

质量监控(DQC)

结合离线数仓和实时流特性,可以从「业务延迟」,「任务出错」,「数据波动」,「数据质量」四方面对实时数仓做质量监控

业务应用(App)

针对不同业务,可订阅「数据明细层」,「数据分流层」,「数据汇总层」的流式数据进行实时业务场景的应用