MapReduce和sparks运行wordcount案例过程分析

MapReduce执行wordcount案例分析

1、先将磁盘中的文件读入到内存，按行读取，如图所示
MapReduce和sparks运行wordcount案例过程分析
2、将文件分割成每个一行一行数据之后，MapReduce框架会自动将我们的一行一行数据转化为<key,value>形式，这个key默认的就是该行数据的首字符在之前文本中的位置，value就是该行字符串，如图所示。
MapReduce和sparks运行wordcount案例过程分析
3、将分割好的<key,value>对交给用户定义的map方法进行处理，生成新的<key,value>对，如图

4、得到map方法输出的<key,value>对后，Mapper会执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果，如图所示。
MapReduce和sparks运行wordcount案例过程分析
5、Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的<key,value>对，并作为WordCount的输出结果

spark运行wordcount案例分析

在一个统计词数的程序中，首先读取数据，在执行两次map操作，和一个reduce操作，最好保存结果，在这个过程中，一共生成了6个RDD，在读取数据的时候，生成了两个RDD，经过两次map，又生成了两个RDD，在reduce时生成了一个RDD，在执行saveAsTextFile时又生成了一个RDD。

reduce时的过程也称为shuffle，一共有两个步骤，第一步是进行局部聚合，第二步是进行全局聚合

一个分区对应一个task(在同一个stage)，一个分区对应的task只能在一台机器上（在executor中），一台机器上可以有多个分区对应的task
一共有两个阶段（stage），在shuffle时是一个分水岭，shuffle，shuffle前的task称为shufflemaptask,shuffle后的task成为resulttask.所以，WordCount执行过程中，一共生成了2种task,4个task。
MapReduce和sparks运行wordcount案例过程分析

MapReduce和sparks运行wordcount案例过程分析

MapReduce执行wordcount案例分析

spark运行wordcount案例分析

相关推荐