HTAP数据库系列 | 分布式数据库如何支持BI升级应用

随着移动互联网、云计算、物联网、大数据和人工智能等技术的广泛应用,现代社会已经迈入全新的大数据时代。企业如何掌握自身的大数据资产,进行智能化决策,已成为企业最终成长胜出的关键因素。
越来越多的企业开始重视自己的大数据战略布局,重新定义自己的核心竞争力—数据资产,从全量历史在线数据中发现规律,了解过去、知悉现在、洞察未来,数据驱动企业运行与决策的科学性,构建智慧企业,打造核心竞争力。

数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产。如何应对大数据,挖掘大数据的价值,从海量数据信息中快速探索数据应用,将是未来信息技术发展道路上关注的重点。

分布式数据库可以利用其在线实时分析处理能力,支持BI升级应用,下文以分布式数据库Hubble与一款开源BI工具Superset为例,充分利用Hubble(HTAP数据库)在线实时分析处理能力,配合Superset强大的可视化展示能力,辅助企业从海量的历史数据中,实现快速探索应用。

Hubble是天云数据研发的一款大规模高并发支持灵活查询的实时查询引擎,具有高可用、可横向扩展、健壮性的特点,支持数据自动均匀分布、支持索引及事务控制、支持REST、SQL、SDK等接口,支持上千个用户并发的进行实时查询。

人工智能和大数据一直作为孪生兄弟相互支撑,生产与离线分析各自独立的传统信息化结构已经无法支撑AI的发展,每个异构数据库产品之间的同步和数据冗余;业务的实时性需要流数据框架;ML越来越多作为核心业务部件被部署在流程中自动化完成……这些都会带来很多问题,因此限制了大数据企业应用的发展。新一代数据驱动业务提出了数据湖等全新架构,而数据湖不仅仅是低成本的存储,更应是面向生产交易等数据科学处理的核心计算框架。凭借7年来在分布式计算集群的沉淀,及三家大型银行核心交易系统的实践验证,天云数据推出了百万原生代码规模的HTAP产品:Hubble,可以实现混合交易分析处理,一款既能支持OLTP,又能支持OLAP的产品
HTAP数据库系列 | 分布式数据库如何支持BI升级应用
Superset是一个自助式数据分析工具,它的主要目标是简化我们的数据探索分析操作,它的强大之处在于整个过程一气呵成,几乎不用片刻的等待。

Apache Superset(孵化)是一个现代的、企业级的商业智能web应用程序。它丰富的数据可视化集,易于使用的界面,非常便于探索和可视化数据,创建和共享仪表板。它每一个可扩展的、高粒度的安全/权限模型,允许关于谁可以访问单个特性和数据集的复杂规则;每一个简单的语义层,允许用户通过定义哪些字段应该显示在哪个下拉列表中;以及哪些聚合和函数指标可供用户使用来控制数据源在UI中的显示方式;通过SQLAlchemy与大多数讲sql的RDBMS集成。

下面举一个航班延误统计分析处理的例子,说明Hubble+Superset的解决方案的强大优势。

示例数据是利用美国航空总局提供的从2007年到2017年的10年航班信息数据共计260亿条记录导入到Hublle数据库,耗时2小时12分,比导入oracle数据库的入库效率提升了10倍。

业务需求分析如下:
航班延误情况,包括延误航班所属的航空公司,航班号,起始地、目的地,延误的时长;
这趟航班是经常性延误,还是相对较偶然性的延误;
是起飞延误还是到达延误;
航空航班延误的整体情况是什么样的。

具体是实现方案:
根据业务需求,可以发现在已有的航班信息表中,有一些字段信息是冗余的,所以利用Hubble数据库先对数据进行一次清洗,再进行加工处理,处理完成的数据仍然存在Hubble数据库,提供查询展示。

实现流程:
1、根据业务应用制作Superset切片
将Superset连接上Hubble后,便可点击Superset的SQL工具箱下拉菜单下的SQL编辑器按钮,编写SQL语言进行数据可视化操作了。如下图所示:
HTAP数据库系列 | 分布式数据库如何支持BI升级应用
得到查询结果,点击Visualize按钮,进入数据可视化编辑窗口,按需显示图形:
HTAP数据库系列 | 分布式数据库如何支持BI升级应用
展示切片结果如下:
HTAP数据库系列 | 分布式数据库如何支持BI升级应用
在可视化图形选择的选框里选择饼图,做出的可视化图形如上。饼状图按顺时针方向数据从大到小,且对于各个航空公司延误次数所占延误情况整体大小显示非常鲜明。点击某航空公司所占区域,还会显示该区域所占的的数值。如上图,航班延误总次数最多的是WN航空公司,AA航空次之,航班飞行最稳定的是AQ航空公司。

2、通过切片制作看板
制作完成切片,可以将所有切片保存在一个看板里,命名一个主题,便于展示。将5个方面的切片合成一个看板,命名“航班延误信息统计分析”,看板展示如下:
HTAP数据库系列 | 分布式数据库如何支持BI升级应用
总结:上述数据探索应用方案如果采用传统数据仓库思路实现至少需要2周,而且还要大量数据加工处理人员参与。利用 Hubble+Superset 组件进行搭建实现,一个初级的数据分析工程师,从入库到最终结果展示,大约用了两天实现快速实现了“航班信息统计”的可视化报表,并针对“航班延误情况”进行了探索分析。由此看,采用Hubble+Superset的方案可以快速实现海量数据探查应用。