MapReduce计数实例

MapReduce计数实例

MapReduce 简介

MapReduce 是Hadoop的分布式计算系统,是一个分布式运算程序的编程框架。
为什么需要MapReduce

  • 海量数据在单机上处理受硬件限制,效率不高
  • 分布式程序开发困难
  • 引入MapReduce后,开发人员可以将大部分工作集中于业务逻辑的开发,将分布式计算的复杂性交给框架处理。

MapReduce计数

本实例是基于Hadoop2.8.5的伪分布式平台。如果jps命令执行后如下图所示,则伪分布式搭建完成。Hadoop伪分布式和完全分布式的搭建后续会进行更新????。
MapReduce计数实例

  1. 先将本地一个文件上传到HDFS
    hadoop fs -put README.txt /
    上述/表示将README.txt 上传至HDFS根目录下,也可先创建目录再指定目录上传。

  2. 查看是否上传成功
    hadoop fs -ls

  3. 进入mapreduce目录
    cd /usr/local/hadoop/share/hadoop/mapreduce

  4. 执行countword程序
    hadoop jar hadoop-mapreduce-examples-2.8.5.jar wordcount /README.txt /count.txt
    上述表示执行wordcount程序,输入为README.txt ,输出为count.txt,都放在根目录下。
    hadoop fs -ls /count.txt查看countword执行后输出在count.txt目录下那个文件中
    MapReduce计数实例
    hadoop fs -cat /count.txt/part -r -00000显示结果
    MapReduce计数实例
    如上图所示,结果为README.txt中各单词的个数。

参考博客,感谢大佬!!!