大数据量下的实时报表设计与实现（笔记）

大数据量下的实时报表设计与实现（笔记）

报表系统架构的改进

1.原有架构缺乏实时性，是因为选择离线计算模式处理数据。垮裤跨表查询性能不足，不支持跨库跨表。

2.将报表的业务剥离出来，形成独立于其他系统的报表服务

3.原来的架构中数据的同步和计算是写在脚本文件中，直接分布在Hadoop的NameNode的节点上，工作效率不高。

应该充分利用HDFS（分布式文件系统（Hadoop Distributed File System））的高吞吐量的特性，缩短数据库同步至数据库同步中Hadoop集群的时间。

可以利用Java多线程技术动态地选择MySQL数据库进行数据库读取，充分利用系统资源。

大数据量下的实时报表设计与实现（笔记）

报表服务模块中额数据查询可以从分布式索引中刚查询，也可以冲MySQL数据库中查询。少数较为简单的数据查询是直接查询MySQL。例如只访问某一张表。

分布式检索引擎Solr的问世，为解决海量数据查询提供了另一种处理模式。Solr支持为数据库的记录建立索引。数据库记录抽象为文档，由多个字段组成，每个字段由一个单词组成，并使用倒排索引技术来创建索引。倒排索引是目前应用最广泛的索引模型。

在分布式索引中的数据在逻辑上是以宽表的形式存储的。

宽表的优点：

大数据量下的实时报表设计与实现（笔记）

大数据量下的实时报表设计与实现（笔记）

大数据量下的实时报表设计与实现（笔记）

大数据量下的实时报表设计与实现（笔记）