MapReduce计数实例
MapReduce计数实例
MapReduce 简介
MapReduce 是Hadoop的分布式计算系统,是一个分布式运算程序的编程框架。
为什么需要MapReduce
- 海量数据在单机上处理受硬件限制,效率不高
- 分布式程序开发困难
- 引入MapReduce后,开发人员可以将大部分工作集中于业务逻辑的开发,将分布式计算的复杂性交给框架处理。
MapReduce计数
本实例是基于Hadoop2.8.5的伪分布式平台。如果jps命令执行后如下图所示,则伪分布式搭建完成。Hadoop伪分布式和完全分布式的搭建后续会进行更新????。
-
先将本地一个文件上传到HDFS
hadoop fs -put README.txt /
上述/表示将README.txt 上传至HDFS根目录下,也可先创建目录再指定目录上传。 -
查看是否上传成功
hadoop fs -ls
-
进入mapreduce目录
cd /usr/local/hadoop/share/hadoop/mapreduce
-
执行countword程序
hadoop jar hadoop-mapreduce-examples-2.8.5.jar wordcount /README.txt /count.txt
上述表示执行wordcount程序,输入为README.txt ,输出为count.txt,都放在根目录下。hadoop fs -ls /count.txt
查看countword执行后输出在count.txt目录下那个文件中hadoop fs -cat /count.txt/part -r -00000
显示结果
如上图所示,结果为README.txt中各单词的个数。