【若泽大数据实战第九天】MapReduce job运行案例

MapReduce运行词频统计案例

map 映射
reduce 规约

先做一个PI的案例：

hadoop jar ./share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar pi 5 10

【若泽大数据实战第九天】MapReduce job运行案例

在这里，看到的是先做的是map，map做完，做reduce，但是再生产上，很复杂，可能map只做了还不到一半就开始做reduce了。

词频统计案例：

vi a.txt 随便写入一些词

vi b.tx 随便写入一些词

hdfs dfs -ls /

hdfs dfs -mkdir /wordcount

hdfs dfs -mkdir /wordcount/input

hdfs dfs -put a.txt /wordcount/input

hdfs dfs -put b.tx /wordcount/input

hdfs dfs -ls /wordcount/input/

【若泽大数据实战第九天】MapReduce job运行案例

运行这句命令：\ 符号代表换行不执行

hadoop jar \
./share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar \
wordcount /wordcount/input /wordcount/output1

完成之后， hdfs dfs -ls /wordcount/output1 看一下：

【若泽大数据实战第九天】MapReduce job运行案例

第一个 _SUCCESS是0字节，是一个标识文件

第二个 part-r-00000表示结果集

用这个句命令hdfs dfs -cat /wordcount/output1/part-r-00000可以看到文件的内容：

【若泽大数据实战第九天】MapReduce job运行案例

用这句命令 hdfs dfs -get /wordcount/output1/part-r-00000 ./ 可以从hdfs上下载下来。

在yarn上面：http://ip:8088/cluster 可以看到相应的job。

【若泽大数据实战第九天】MapReduce job运行案例