Spark2.x入门中SparkStreaming的工作原理是什么

Spark2.x入门中SparkStreaming的工作原理是什么

本篇文章给大家分享的是有关Spark2.x入门中SparkStreaming的工作原理是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

 官网翻译大体意思如下:

    SparkStreaming是核心SparkApi的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis或TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,您可以将Spark的机器学习和图形处理算法应用于数据流。

Spark2.x入门中SparkStreaming的工作原理是什么

  内部工作原理:SparkStreaming接受实时输入数据流,并将数据分成批次,然后由Spark engine处理,以批量生成最终的结果流。

Spark2.x入门中SparkStreaming的工作原理是什么

    DStream是SparkStreaming流提供的基本抽象。它表示连续的数据流,可以是从源接收到的输入数据流,也可以是通过转换输入流生成的经过处理的数据流。在内部,DStream由一系列连续的RDD表示,RDD是Spark对不可变的分布式数据集的抽象。DStream中的每个RDD包含来自某个间隔的数据,如下图所示。

Spark2.x入门中SparkStreaming的工作原理是什么

    应用于DStream上的任何操作都转换为底层RDD上的操作。例如,在前面将一个行流转换为单词的示例中,flatMap操作应用于行DStream中的每个RDD,以生成单词DStream的RDD。如下图所示。

Spark2.x入门中SparkStreaming的工作原理是什么

    这些底层的RDD转换是由Spark引擎计算的。DStream操作隐藏了这些细节中的大部分,并为开发人员提供了更高级的API。这些操作将在后面的小节中详细讨论。

SparkStreaming 、Flink 、Storm 三种流式处理框架对比分析


SparkStreaming  Flink  Storm 
吞吐量
高吞吐 高吞吐 低吞吐
实时性
秒级延迟 低延迟,毫秒级(百毫秒) 低延迟,毫秒级(几十毫秒)
乱序、延迟处理

flink通过warterMarker水印支持乱序和延迟处理,这个spark没有
保证次数
exactly-once exactly-once at-least-once
动态调整并行度
不支持 支持 支持
容错
基于RDD的checkpoint
基于分布式Snapshot的checkpoint
基于Record记录的ack机制

以上就是Spark2.x入门中SparkStreaming的工作原理是什么,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。