Hadoop基本介绍(3)

MapReduce计算框架

是指实现某项任务或某项工作从开始到结束的计算过程或流的结构
Hadoop基本介绍(3)

并行计算框架

一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算
Hadoop基本介绍(3)

Hadoop为什么比传统技术方案快

  • 1、分布式存储
  • 2、分布式并行计算
  • 3、节点横向扩展
  • 4、移动程序到数据端
  • 5、多个数据副本

MapReduce核心思想

分而治之,先分后和:将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。

  • MapReduce由Map和Reduce组成
  • Map: 将数据进行拆分
  • Reduce:对数据进行汇总

Hadoop基本介绍(3)

偏移量

每个字符移动到当前文档的最前面需要移动的字符个数。

hadoop数据类型

  • java : int long double float boolean string
  • hadoop : IntWritable LongWritable DoubleWritable FloatWritable BooleanWritable Text

MapReduce计算任务的步骤

  • 第1步:InputFormat
    InputFormat 到hdfs上读取数据
    将数据传给Split
  • 第2步:Split
    //设置读取数据的路径 TextInputFormat.addInputPath(job,new Path(“C:\bbb.txt”)); //3、设置Map job.setMapperClass(WordCountMap.class); //设置map输出的类型 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(LongWritable.class); //4、设置reduce代码 job.setReducerClass(WordCountReduce.class); //设置reduce输出的类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); //5、设置读输出数据的class job.setOutputFormatClass(TextOutputFormat.class); //设置输出数据的路径 TextOutputFormat.setOutputPath(job,new Path(“C:\ccc.txt”)); //6、等待代码执行(返回状态码) return job.waitForCompletion(true)?0:1;
    Split将数据进行逻辑切分,
    将数据传给RR
  • 第3步:RR
    RR:将传入的数据转换成一行一行的数据,输出行首字母偏移量和偏移量对应的数据
    将数据传给MAP
  • 第4步:MAP
    MAP:根据业务需求实现自定义代码
    将数据传给Shuffle的partition
  • 第5步:partition
    partition:按照一定的分区规则,将key value的list进行分区。
    将数据传给Shuffle的Sort
  • 第6步:Sort
    Sort:对分区内的数据进行排序
    将数据传给Shuffle的combiner
  • 第7步:combiner
    combiner:对数据进行局部聚合。
    将数据传给Shuffle的Group
  • 第8步:Group
    Group:将相同key的key提取出来作为唯一的key,
    将相同key对应的value获取出来作为value的list
    将数据传给Reduce
  • 第9步:Reduce
    Reduce:根据业务需求进行最终的合并汇总。
    将数据传给outputFormat
  • 第10步:outputFormat
    outputFormat:将数据写入HDFS

Hadoop基本介绍(3)

Shuffle阶段的Partition分区算法

算法:对key 进行哈希,获取到一个哈希值,用这个哈希值与reducetask的数量取余。余几,这个数据就放在余数编号的partition中。

Split的逻辑切分

获取到读取到的数据,对数据进行逻辑切分,切分的大小是128M.
这里的128 与HDFS数据块的128没有任何关系
HDFS 128 是存储层面的数据切分
split128 是计算层面的128,只不过数据恰好相等。
两个128相同的原因是,一个集成程序能够正好计算一个数据块。
Hadoop基本介绍(3)