实时大数据分析一基 于Storm、Spark技术的实时应用

本篇详细阐述了实时大数据分析的实现过程,主要包括大数据技术前景及分析平台,Storm 的熟悉,

用Storm处理数据,Trident 概述和Storm性能优化,Kinesis 的熟悉,Spark 的熟悉,使用RDD编程,

Spark的SQL查询引擎,用Spark Streaming分析流数据以及Lambda架构等内容。此外,本篇还提供了

相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。

 

实时大数据分析一基 于Storm、Spark技术的实时应用

 

 

本篇内容

第1章“大数据技术前景及分析平台”奠定了全书的知识背景,主要包括大数据前景的综述、大数据平台,上采用的各种数据处理方法、进行数据分析所用的各种平台。本章也介绍了实时或准实时批量分布式处理海量数据的范式。此外,还涉及处理高速/高频数据读写任务的分布式数据库。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

 

第2章“熟悉Storm"介绍了实时/准实时数据处理框架Apache Storm的概念、架构及编程方法。这里涉及多种Storm的基本概念,诸如数据源( spouts)、数据流处理组件(bolts)、并行度(parallelism) 等。本章还以丰富的应用场景及范例说明如何利用Storm进行实时大数据分析。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

 

第3章“用Storm处理数据”着重于介绍ApacheStorm中用于处理实时或准实时数据流的内部操作,如过滤(iter)、连接(joins)、聚合(aggregators)等。这里展示了Storm .对Apache Kafka、网络通信接口、文件系统等多种输入数据源的集成,最后利用Storm JDBC框架将处理过的数据保存起来。本章还提到Storm中多种企业关注的数据流处理环节,诸如可靠性、消息获取等。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

第4章"Trident概述和Storm性能优化”验证了实时或准实时事务数据的处理。这里介绍了实时处理框架Trident, 它主要用于处理事务数据。在此提到使用Trident 处理事务应用场景的几种架构。这一- 章还提到多种概念和可用参数,进而探讨了它们对Storm框架与其任务的监测、优化以及性能调整诸方面的可用性。本章还涉及LMAX、环形缓冲区、ZeroMQ等Storm内部技术。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

第5章“熟悉Kinesis"提到了在云.上可用的实时数据处理技术Kinesis,此技术是亚马逊云计算平台AWS中的实时数据处理服务。这里先说明了Kinesis 的架构和组成部分,接着用一个端到端的实时报警发生范例阐明了Kinesis 的用法,其中使用到KCL、KPL 等客户端库。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

 

第6章“熟悉Spark”介绍了Apache Spark 的基础知识,其中包括Spark程序的高级架构和构建模块。这里先从Spark的纵览开始,接着提到了Spark 在各种批处理和实时用户场景中的应用情况。这-章还深入讲到Spark的高级架构和各种组件。在本章的最后部分讨论了Spark集群的安装、配置以及第一个Spark任务的执行实现。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

第7章“使用RDD编程”对SparkRDD进行了代码级的预排。这里说明了RDDAPI提供的各种编程操作支持,以便于使用者轻松实现数据转换和保存操作。在此还阐明了Spark对如Apache Cassandra这样的NoSQL数据库的集成。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

 

第8.章“Spark的SQL查询引擎-- Spark SQL"介绍了Spark SQL,这是一一个和Spark协同工作的SQL风格的编程接口,可以帮助读者将Parquet或Hive这样的数据集快速应用到工作中,并支持通过DataFrame或原始SQL语句构建查询。本章同时推荐了一些Spark数据库的最佳实践案例。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

 

第9章“用Spark Streaming 分析流数据”介绍了Spark 的又一个扩展工具SparkStreaming,用于抓取和处理实时或准实时的流数据。这里顺承着Spark 架构简明扼要地描述了Spark Streaming中用于数据加载、转换、持久化等操作的各种应用编程接口。为达成实时查询数据,本章将Spark SQL和Spark Streaming 进行了深入集成。本章最后讨论了Spark Streaming任务部署和监测等方面的内容。

实时大数据分析一基 于Storm、Spark技术的实时应用

 

 

第10章“介绍Lambda架构”引领读者认识了新兴的Lambda架构,这个架构可以将实时和预计算的批量数据结合起来组成一个混合型的大数据处理平台,从其中获得对数据的准实时理解。本章采用了Apache Spark 并讨论了Lambda架构在实际应用场景中的实现。

 

 

实时大数据分析一基 于Storm、Spark技术的实时应用

 

本篇适用读者

本篇主要面向应用开源技术进行实时分析应用和框架开发的大数据架构师、开发者及程序员群体。这些有实力的开发者阅读本篇时可以运用Java或Scala语言的功底来进行高效的核心要素和应用编程实现。

本篇会帮助读者直面不少大数据方面的难点及挑战。书里不但包括应用于实时/准实时流数据及高频采集数据处理分析的大量工具和技术,而且涵盖了Apache Storm、ApacheSpark Kinesis 等各种工具和技术的内存分布式计算范式。