MR -- MapReduce开发总结

编写 MR 程序,注意以下几点:
1、输入数据接口:InputFormat
MR -- MapReduce开发总结
2、逻辑处理接口:Mapper
根据需求,实现其中的三个方法:map()、setup()、cleanup()。

3、Partition 分区
MR -- MapReduce开发总结
4、Comparable 排序
MR -- MapReduce开发总结
5、Combiner 合并
Combiner合并可以提高程序的执行效率,减少 IO 传输。但是使用时,不能影响业务逻辑。

6、Reduce 端分组:GroupingComparator
在 Reduce 端对 key 进行分组。应用于:在接收的 key 为 bean 对象时候,想让一个或多个字段相同(全部字段比较不同)的 key 进入一个 reduce 方法时,可以采用分组排序。

7、逻辑处理接口:Reducer
用户根据业务需求实现其中三个方法:reduce()、setup()、cleanup()。

8、输出数据接口:OutputFormat
MR -- MapReduce开发总结