阿帕奇光束

Apache Beam是一个开放源代码统一模型,用于定义批处理和流数据并行处理管道。 使用一种开源的Beam SDK,您可以构建一个定义管道的程序。 然后,该管道由Beam支持的分布式处理后端之一执行,这些后端包括Apache ApexApache FlinkApache SparkGoogle Cloud Dataflow

Beam对于令人尴尬的并行数据处理任务特别有用,在该任务中,问题可以分解为许多较小的数据束,可以独立和并行处理。 您还可以将Beam用于提取,转换和加载(ETL)任务以及纯数据集成。 这些任务对于在不同的存储介质和数据源之间移动数据,将数据转换为更理想的格式或将数据加载到新系统上非常有用。

Apache Beam管道运行器

阿帕奇光束

Beam Pipeline运行器将您使用Beam程序定义的数据处理管道转换为与您选择的分布式处理后端兼容的API。 运行Beam程序时,需要为要在其中执行管道的后端指定适当的运行程序。

Beam当前支持与以下分布式处理后端一起使用的Runner:

  • Apache Apex
  • Apache Flink
  • Apache Gearpump(正在孵化)
  • 阿帕奇火花
  • Google Cloud Dataflow

[1] https://beam.apache.org

翻译自: https://www.javacodegeeks.com/2018/02/apache-beam.html