第2节 mapreduce深入学习：4, 5

第2节 mapreduce深入学习：4、mapreduce的序列化以及自定义排序

序列化（Serialization）是指把结构化对象转化为字节流。

反序列化（Deserialization）是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流

反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。

Java 的序列化（Serializable）是一个重量级序列化框架，一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系…），不便于在网络中高效传输；所以，hadoop 自己开发了一套序列化机制（Writable），精简，高效。不用像 java 对象类一样传输多层的父子关系，需要哪个属性就传输哪个属性值，大大的减少网络传输的开销。

Writable是Hadoop的序列化格式，hadoop定义了这样一个Writable接口。一个类要支持可序列化只需实现这个接口即可。

另外Writable有一个子接口是WritableComparable，writableComparable是既可实现序列化，也可以对key进行比较，我们这里可以通过自定义key实现WritableComparable来实现我们的排序功能

mapreduce的排序以及序列化：要求第一列按照字典顺序进行排列，第一列相同的时候，第二列按照升序进行排列

a 1
a 9
b 3
a 7
b 8
b 10
a 5
a 9

最终排序结果
a 1
a 5
a 7
a 9
a 9
b 3
b 8
b 10

在mapreduce当中默认是对key2 记住，要对谁排序，就得要把谁封装成k2
需要对两个字段进行排序
两个字段进行比较，可不可以封装成一个对象，对象里面两个字段，对象实现writableComparable接口，就可以实现序列化，也可以实现排序了.

第2节 mapreduce深入学习：4, 5

详见代码

第2节 mapreduce深入学习：4, 5

相关推荐