Spark概述

什么是Spark

1、大数据处理分析引擎
2、快如闪电
3、操作统一

Spark特点

1、速度快,比Hadoop快100倍
2、简单易用,拥有Java,Scala,R,Python,SQL这几种操作方式。
3、包容性,拥有多个库:

  • SQL and DataFrames支持关系型操作,支持SQL。
  • MLlib支持机器学习。
  • GraphX支持图形处理。
  • Spark Streaming 支持流式处理。
    4、支持多平台,可运行在Hadoop , Mesos, Kubernetes 等环境中。
    Spark概述
    个人观点:Hadoop提供了Map Reduce数据处理模型,这种模型太过单一,Spark在Map Reduce基础之上增加了其它数据处理模型,提供了多种高级语言的API,操作起来更方便。对数据处理引擎进行了优化,提升了速度。增加了支持的平台,不仅仅支持hdfs文件系统,还增加了其它文件系统。总而言之,言而总之,Spark比Hadoop更上x层楼。