MapReduce计数实例

MapReduce 简介

MapReduce 是Hadoop的分布式计算系统，是一个分布式运算程序的编程框架。
为什么需要MapReduce

海量数据在单机上处理受硬件限制，效率不高

分布式程序开发困难

引入MapReduce后，开发人员可以将大部分工作集中于业务逻辑的开发，将分布式计算的复杂性交给框架处理。

本实例是基于Hadoop2.8.5的伪分布式平台。如果jps命令执行后如下图所示，则伪分布式搭建完成。Hadoop伪分布式和完全分布式的搭建后续会进行更新????。
MapReduce计数实例

先将本地一个文件上传到HDFS
hadoop fs -put README.txt /
上述/表示将README.txt 上传至HDFS根目录下，也可先创建目录再指定目录上传。
查看是否上传成功
hadoop fs -ls
进入mapreduce目录
cd /usr/local/hadoop/share/hadoop/mapreduce
执行countword程序
hadoop jar hadoop-mapreduce-examples-2.8.5.jar wordcount /README.txt /count.txt
上述表示执行wordcount程序，输入为README.txt ，输出为count.txt，都放在根目录下。
hadoop fs -ls /count.txt查看countword执行后输出在count.txt目录下那个文件中

hadoop fs -cat /count.txt/part -r -00000显示结果

如上图所示，结果为README.txt中各单词的个数。