Apache Spark 3.0 拥抱大数据处理分析引擎

资源概述

Python，Scala，Java一睹为快示例：http://spark.apache.org/examples.html

作为Java编程开发者，官网已经尽可能为我们提供便利了，你想要的都在这里：

俗话说，知子莫如父，Apache spark的特性和版本指导都可以准确找到：http://spark.apache.org/documentation.html

Spark能干什么，请大家务必记住以下这些特性：

运行工作负载的速度提高了100倍。

Apache Spark使用最新的DAG调度程序，查询优化器和物理执行引擎，可实现批处理和流数据的高性能。

Hadoop和Spark中的逻辑回归

使用Java，Scala，Python，R和SQL快速编写应用程序。

Spark提供了80多个高级操作员，可轻松构建并行应用程序。您可以从Scala，Python，R和SQL Shell 交互使用它。

df =火花。阅读。json （“ logs.json” ） df。其中（“年龄> 21” ）。选择（“ name.first” ）。显示（）

Spark的Python DataFrame API
通过自动模式推断读取JSON文件

结合使用SQL，流和复杂的分析。

星火权力库，包括一叠 SQL和DataFrames，MLlib机器学习， GraphX和星火流。您可以在同一应用程序中无缝组合这些库。

Spark可在Hadoop，Apache Mesos，Kubernetes，独立或云中运行。它可以访问各种数据源。

您可以在EC2，Hadoop YARN，Mesos或Kubernetes上使用其独立集群模式运行Spark 。访问HDFS， Alluxio， Apache Cassandra， Apache HBase， Apache Hive以及数百种其他数据源中的数据。

切记：官网从来都是最好的老师，道听途说不足为信！