Apache Spark 3.0 拥抱大数据处理分析引擎

目录

资源概述

速度

使用方便

概论

无处不在


 资源概述

github代码库:https://github.com/apache/spark

Python,Scala,Java一睹为快示例:http://spark.apache.org/examples.html

Spark Java版本示例:https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples

作为Java编程开发者,官网已经尽可能为我们提供便利了,你想要的都在这里:

Apache Spark 3.0 拥抱大数据处理分析引擎

 俗话说,知子莫如父,Apache spark的特性和版本指导都可以准确找到:http://spark.apache.org/documentation.html

Spark能干什么,请大家务必记住以下这些特性:

速度

运行工作负载的速度提高了100倍。

Apache Spark使用最新的DAG调度程序,查询优化器和物理执行引擎,可实现批处理和流数据的高性能。

Apache Spark 3.0 拥抱大数据处理分析引擎
Hadoop和Spark中的逻辑回归

使用方便

使用Java,Scala,Python,R和SQL快速编写应用程序。

Spark提供了80多个高级操作员,可轻松构建并行应用程序。您可以 从Scala,Python,R和SQL Shell 交互使用它。

df =火花。阅读json “ logs.json”  df。其中“年龄> 21”    。选择“ name.first” 显示
Spark的Python DataFrame API
通过自动模式推断读取JSON文件

概论

结合使用SQL,流和复杂的分析。

星火权力库,包括一叠 SQL和DataFramesMLlib机器学习, GraphX星火流。您可以在同一应用程序中无缝组合这些库。

Apache Spark 3.0 拥抱大数据处理分析引擎

无处不在

Spark可在Hadoop,Apache Mesos,Kubernetes,独立或云中运行。它可以访问各种数据源。

您可以在EC2Hadoop YARNMesosKubernetes上使用其独立集群模式运行Spark 。访问HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive以及数百种其他数据源中的数据。

Apache Spark 3.0 拥抱大数据处理分析引擎

切记:官网从来都是最好的老师,道听途说不足为信!