MapReduce和sparks运行wordcount案例过程分析

MapReduce执行wordcount案例分析

1、先将磁盘中的文件读入到内存,按行读取,如图所示
MapReduce和sparks运行wordcount案例过程分析
2、将文件分割成每个一行一行数据之后,MapReduce框架会自动将我们的一行一行数据转化为<key,value>形式,这个key默认的就是该行数据的首字符在之前文本中的位置,value就是该行字符串,如图所示。
MapReduce和sparks运行wordcount案例过程分析
3、将分割好的<key,value>对交给用户定义的map方法进行处理,生成新的<key,value>对,如图
MapReduce和sparks运行wordcount案例过程分析
4、得到map方法输出的<key,value>对后,Mapper会执行Combine过程,将key至相同value值累加,得到Mapper的最终输出结果,如图所示。
MapReduce和sparks运行wordcount案例过程分析
5、Reducer先对从Mapper接收的数据进行排序,再交由用户自定义的reduce方法进行处理,得到新的<key,value>对,并作为WordCount的输出结果
MapReduce和sparks运行wordcount案例过程分析

spark运行wordcount案例分析

在一个统计词数的程序中,首先读取数据,在执行两次map操作,和一个reduce操作,最好保存结果,在这个过程中,一共生成了6个RDD,在读取数据的时候,生成了两个RDD,经过两次map,又生成了两个RDD,在reduce时生成了一个RDD,在执行saveAsTextFile时又生成了一个RDD。

reduce时的过程也称为shuffle,一共有两个步骤,第一步是进行局部聚合,第二步是进行全局聚合

一个分区对应一个task(在同一个stage),一个分区对应的task只能在一台机器上(在executor中),一台机器上可以有多个分区对应的task
一共有两个阶段(stage),在shuffle时是一个分水岭,shuffle,shuffle前的task称为shufflemaptask,shuffle后的task成为resulttask.所以,WordCount执行过程中,一共生成了2种task,4个task。
MapReduce和sparks运行wordcount案例过程分析