MapReduce：a Batch Processing System

MPI

MPI是一个信息传递应用程序接口，包括协议和和语义说明。
是为了处理进程间通讯的协议。
问题：
- 在MapReduce出现之前，已经有像MPI这样非常成熟的并行计算框架了，那么为什么Google还需要MapReduce？
- 这是因为，传统并行计算框架基本上都还是在单机上，为了保证不易宕机，一般都选择昂贵的刀片服务器，而MapReduce只需要普通的PC机，容错性好。

Hadoop架构

Client
- 提交作业：用户编写的MapReduce程序通过Client提交到JobTracker端
- 作业监控：用户可通过Client提供的一些接口查看作业运行状态
JobTracker
- 资源管理：监控TaskTracker与Job的状况。一旦发现失败，就将Task转移到其它节点
- 作业调度：将Job拆分成Task，跟踪Task的执行进度、资源使用量等信息，由TaskScheduler调度（不是一个单独的进程，是一个模块）
TaskTracker
- 执行操作：接收JobTracker发送过来的命令并执行（如启动新Task、杀死Task等）
- 划分资源：使用“slot”等量划分本节点上的资源量（CPU、内存等），一个Task 获取到一个slot 后才有机会运行
- 汇报信息：通过“心跳”将本节点上资源使用情况和任务运行进度汇报给JobTracker
- Map slot-> Map Task
- Reduce slot -> Reduce Task
Task
- 任务执行
  - Map task
  - Reduce task
- 在Hadoop上，每个task为一个进程；而在spark上，为线程。
- 如何执行任务？
  - 使用Java的反射和代理机制动态加载代码

MapReduce处理系统

MapReduce处理系统

Map任务的数量
- Hadoop为每个split创建一个Map任务，split 的多少决定了Map任务的数目。
- 虽然用户在配置中可以自定义Map的数量，但并不起作用
Mapper必须完成后才能被Reduce利用
- 指一个节点完成后，数据才可以被Reduce读取
- 但并不是所有的Map都要完成才能开始Reduce

MapReduce处理系统

Reduce任务的数量
- 程序指定
- 最优的Reduce任务个数取决于集群中可用的reduce任务槽(slot)的数目
- 通常设置比reduce任务槽数目稍微小一些的Reduce任务个数（这样可以预留一些系统资源处理可能发生的错误）

MapReduce处理系统

MapReduce容错和HDFS容错是两回事
由于Map的中间数据必须写入磁盘（为了容错），导致hadoop不能实时流计算。
Map Task失败
- 重新执行Map任务
- 去HDFS重新读入数据
Reduce Task失败
- 重新执行Reduce任务
- 去map重新读入数据
TaskTracker失败
- JobTracker不会接收到“心跳”
- JobTracker会安排其他TaskTracker重新运行失败TaskTracker的任务
JobTracker失败
- 最严重的失败，Hadoop没有处理JobTracker失败的机制，是个单点故障
- 所有任务需要重新运行