【若泽大数据实战第九天】MapReduce job运行案例
MapReduce运行词频统计案例
map 映射
reduce 规约
先做一个PI的案例:
hadoop jar ./share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar pi 5 10
在这里,看到的是先做的是map,map做完,做reduce,但是再生产上,很复杂,可能map只做了还不到一半就开始做reduce了。
词频统计案例:
vi a.txt 随便写入一些词
vi b.tx 随便写入一些词
hdfs dfs -ls /
hdfs dfs -mkdir /wordcount
hdfs dfs -mkdir /wordcount/input
hdfs dfs -put a.txt /wordcount/input
hdfs dfs -put b.tx /wordcount/input
hdfs dfs -ls /wordcount/input/
运行这句命令:\ 符号代表换行不执行
hadoop jar \
./share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar \
wordcount /wordcount/input /wordcount/output1
完成之后, hdfs dfs -ls /wordcount/output1 看一下:
第一个 _SUCCESS是0字节,是一个标识文件
第二个 part-r-00000表示结果集
用这个句命令hdfs dfs -cat /wordcount/output1/part-r-00000可以看到文件的内容:
用这句命令 hdfs dfs -get /wordcount/output1/part-r-00000 ./ 可以从hdfs上下载下来。
在yarn上面:http://ip:8088/cluster 可以看到相应的job。