Spark和Hadoop的区别
Spark是基于内存的一种计算框架(有时也会用磁盘,比如Spark Shuffle的时候),但是很多操作,比如单纯的map操作,没有reduce操作;或者是filter类的操作,都是可以直接基于内存进行计算的
MapReduce的计算模型非常固定,必须基于磁盘,以及大量的网络传输
所以,Spark的速度可以比MapReduce,Hive快很多
SparkSQL只是替代Hive的计算引擎
Storm是来一条数据就处理,所以是真的实时处理,但是他的额外资源开销大,吞吐量低,SparkStreaming是先存一些数据,然后再进行处理所以他是准实时,额外开销小,吞吐量较大