解读阿里巴巴大数据之路【实践篇】

解读阿里巴巴大数据之路【实践篇】

第一章:总述
阿里巴巴大数据之路【实践篇】致力于解读《大数据之路:阿里巴巴大数据实践》这一书,将书中精髓抽丝剥茧整理成读书笔记,其中不乏有个人在工程实践上的一些观点,仅供参考。
解读阿里巴巴大数据之路【实践篇】
图1.1 阿里巴巴大数据系统体系架构图

在这个架构中,主要分为四个组成部分:
1.数据采集层:收集数据
采集体系主要是两个:Aplus.JS(Web端)和UserTrack(APP端)
数据传输体系:采用TT(TimeTunnel)传输,完成数据从生产业务端到大数据系统的增量数据/日志数据传输;支持实时流式计算,各种时间窗口的批量计算(通过DataX直连异构数据库来抽取时间窗口数据)。

2.数据计算层:数据整合与计算洞察商业规律
数据计算层包含两大体系:
(1)数据存储及计算云平台:离线计算平台MaxCompute和实时计算平台StreamCompute
(2)数据整合&管理体系:OneDate

3.数据服务层:提供给产品/应用进行数据消费
基于MySQL、HBase等数据库,以及云端RDS等,利用接口服务化方式对外提供数据服务。

4.数据应用层:将应用提供给用户
对内:运营、管理人员
对外:ISV、研究机构、社会组织等
应用:搜索、推荐、广告、金融、信用、保险、文娱、物流等。


下节预告:第一篇 【数据技术篇】,从产品和技术层面分7个章节介绍如何实现“日志采集”、“数据同步”、“离线数据开发”、“实时技术”、“数据服务”、“数据挖掘”。