MapReduce实例——WordCount

第一步：创建MapReduce_Test项目导入hdfs、mapreduce和yarn相关jar包

第二步：编写WordCountMapper类代码如下：

package com.xjtuse;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.util.StringUtils;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
@Override
// 重写父类的map方法循环调用从split后的数据片段中每读取一行调用一次以该行所在的下标为key 该行的内容为value
protected void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
// TODO Auto-generated method stub
String [] words = StringUtils.split(value.toString(), ' '); // 将文件的每一行中的单词以空格进行分割保存到数组中

// 循环遍历数组
for(String w : words)
{
context.write(new Text(w), new IntWritable(1)); // 以单词为key 1为value进行输出
}
}
}

第三步：编写WordCountReducer类代码如下：

package com.xjtuse;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
@Override
// 循环调用reduce方法进行洗牌后生成的每一组数据调用一次该方法这一组数据key相同 value可能有很多
protected void reduce(Text arg0, Iterable<IntWritable> arg1, Context arg2)
throws IOException, InterruptedException {
// TODO Auto-generated method stub
// 定义一个变量存放每一组中单词出现的总数
int sum = 0;
for(IntWritable i : arg1)
{
sum += i.get();
}
arg2.write(arg0, new IntWritable(sum)); // 以单词为key 出现的总次数为value输出
}

}

第四步：在hdfs下创建/wordcount/input目录并将本地的wc.txt文件上传到该目录下

MapReduce实例——WordCount

第五步：编写RunJob类代码如下：

package com.xjtuse;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class RunJob {
public static void main(String[] args) {
// TODO Auto-generated method stub
Configuration conf = new Configuration();
try {
FileSystem fs =FileSystem.get(conf);

// 通过静态方法得到job对象
Job job = Job.getInstance(conf);

// 设置Job的执行类入口文件
job.setJarByClass(RunJob.class);

// 设置Job名称
job.setJobName("wordcount");

// 设置Mapper
job.setMapperClass(WordCountMapper.class);

// 设置Reducer
job.setReducerClass(WordCountReducer.class);

// 设置输出的key的类型
job.setMapOutputKeyClass(Text.class);

// 设置输出的value的类型
job.setMapOutputValueClass(IntWritable.class);

// 设置输入文件的目录
FileInputFormat.addInputPath(job, new Path("/wordcount/input/wc.txt"));

Path outputpath = new Path("/wordcount/output"); // 这个目录必须事先不存在

// 如果输出目录存在则删掉它
if(fs.exists(outputpath))
{
fs.delete(outputpath, true); // true表示递归删除
}

// 设置输出文件的目录
FileOutputFormat.setOutputPath(job, outputpath);

// 执行
boolean b = job.waitForCompletion(true);
if(b)
{
System.out.println("Job任务执行成功！");
}

} catch (Exception e) {
e.printStackTrace();
}
}