Spark和Hadoop的区别

Spark是基于内存的一种计算框架（有时也会用磁盘，比如Spark Shuffle的时候），但是很多操作，比如单纯的map操作，没有reduce操作；或者是filter类的操作，都是可以直接基于内存进行计算的

MapReduce的计算模型非常固定，必须基于磁盘，以及大量的网络传输

所以，Spark的速度可以比MapReduce，Hive快很多

SparkSQL只是替代Hive的计算引擎

Spark和Hadoop的区别

Storm是来一条数据就处理，所以是真的实时处理，但是他的额外资源开销大，吞吐量低，SparkStreaming是先存一些数据，然后再进行处理所以他是准实时，额外开销小，吞吐量较大

Spark和Hadoop的区别