HTAP数据库系列 | 分布式数据库如何支持BI升级应用

随着移动互联网、云计算、物联网、大数据和人工智能等技术的广泛应用，现代社会已经迈入全新的大数据时代。企业如何掌握自身的大数据资产，进行智能化决策，已成为企业最终成长胜出的关键因素。
越来越多的企业开始重视自己的大数据战略布局，重新定义自己的核心竞争力—数据资产，从全量历史在线数据中发现规律，了解过去、知悉现在、洞察未来，数据驱动企业运行与决策的科学性，构建智慧企业，打造核心竞争力。

数据的爆炸式增长以及价值的扩大化，将对企业未来的发展产生深远的影响，数据将成为企业的核心资产。如何应对大数据，挖掘大数据的价值，从海量数据信息中快速探索数据应用，将是未来信息技术发展道路上关注的重点。

分布式数据库可以利用其在线实时分析处理能力，支持BI升级应用，下文以分布式数据库Hubble与一款开源BI工具Superset为例，充分利用Hubble（HTAP数据库）在线实时分析处理能力，配合Superset强大的可视化展示能力，辅助企业从海量的历史数据中，实现快速探索应用。

Hubble是天云数据研发的一款大规模高并发支持灵活查询的实时查询引擎，具有高可用、可横向扩展、健壮性的特点，支持数据自动均匀分布、支持索引及事务控制、支持REST、SQL、SDK等接口，支持上千个用户并发的进行实时查询。

人工智能和大数据一直作为孪生兄弟相互支撑，生产与离线分析各自独立的传统信息化结构已经无法支撑AI的发展，每个异构数据库产品之间的同步和数据冗余；业务的实时性需要流数据框架；ML越来越多作为核心业务部件被部署在流程中自动化完成……这些都会带来很多问题，因此限制了大数据企业应用的发展。新一代数据驱动业务提出了数据湖等全新架构，而数据湖不仅仅是低成本的存储，更应是面向生产交易等数据科学处理的核心计算框架。凭借7年来在分布式计算集群的沉淀，及三家大型银行核心交易系统的实践验证，天云数据推出了百万原生代码规模的HTAP产品：Hubble,可以实现混合交易分析处理，一款既能支持OLTP，又能支持OLAP的产品
HTAP数据库系列 | 分布式数据库如何支持BI升级应用
Superset是一个自助式数据分析工具，它的主要目标是简化我们的数据探索分析操作，它的强大之处在于整个过程一气呵成，几乎不用片刻的等待。

Apache Superset(孵化)是一个现代的、企业级的商业智能web应用程序。它丰富的数据可视化集，易于使用的界面，非常便于探索和可视化数据，创建和共享仪表板。它每一个可扩展的、高粒度的安全/权限模型，允许关于谁可以访问单个特性和数据集的复杂规则；每一个简单的语义层，允许用户通过定义哪些字段应该显示在哪个下拉列表中；以及哪些聚合和函数指标可供用户使用来控制数据源在UI中的显示方式；通过SQLAlchemy与大多数讲sql的RDBMS集成。

下面举一个航班延误统计分析处理的例子，说明Hubble+Superset的解决方案的强大优势。

示例数据是利用美国航空总局提供的从2007年到2017年的10年航班信息数据共计260亿条记录导入到Hublle数据库，耗时2小时12分，比导入oracle数据库的入库效率提升了10倍。

业务需求分析如下：
航班延误情况，包括延误航班所属的航空公司，航班号，起始地、目的地，延误的时长；
这趟航班是经常性延误，还是相对较偶然性的延误；
是起飞延误还是到达延误；
航空航班延误的整体情况是什么样的。

具体是实现方案：
根据业务需求，可以发现在已有的航班信息表中，有一些字段信息是冗余的，所以利用Hubble数据库先对数据进行一次清洗，再进行加工处理，处理完成的数据仍然存在Hubble数据库，提供查询展示。

实现流程：
1、根据业务应用制作Superset切片
将Superset连接上Hubble后，便可点击Superset的SQL工具箱下拉菜单下的SQL编辑器按钮，编写SQL语言进行数据可视化操作了。如下图所示：
HTAP数据库系列 | 分布式数据库如何支持BI升级应用
得到查询结果，点击Visualize按钮，进入数据可视化编辑窗口，按需显示图形：

展示切片结果如下：

在可视化图形选择的选框里选择饼图，做出的可视化图形如上。饼状图按顺时针方向数据从大到小，且对于各个航空公司延误次数所占延误情况整体大小显示非常鲜明。点击某航空公司所占区域，还会显示该区域所占的的数值。如上图，航班延误总次数最多的是WN航空公司，AA航空次之，航班飞行最稳定的是AQ航空公司。

2、通过切片制作看板
制作完成切片，可以将所有切片保存在一个看板里，命名一个主题，便于展示。将5个方面的切片合成一个看板，命名“航班延误信息统计分析”，看板展示如下：
HTAP数据库系列 | 分布式数据库如何支持BI升级应用
总结：上述数据探索应用方案如果采用传统数据仓库思路实现至少需要2周，而且还要大量数据加工处理人员参与。利用 Hubble+Superset 组件进行搭建实现，一个初级的数据分析工程师，从入库到最终结果展示，大约用了两天实现快速实现了“航班信息统计”的可视化报表，并针对“航班延误情况”进行了探索分析。由此看，采用Hubble+Superset的方案可以快速实现海量数据探查应用。

HTAP数据库系列 | 分布式数据库如何支持BI升级应用

相关推荐