Hadoop学习(三)本地运行模式——两个案例
(此篇内容基于上一篇博客配置的环境)
Hadoop运行模式包括:本地模式、伪分布模式、完全分布模式
依赖:Java,SSH
本地运行模式:mapreduce跑在了本地的资源调度,本地的存储上。作用是测试,不用其来跑任务
一、Grep案例
1、编辑文件hadoop-env.sh,配置JAVA_HOME
当前目录:/opt/module/hadoop-2.7.2/
打开文件:etc/hadoop/hadoop-env.sh
测试:bin/hadoop
2、本地独立运行,非分布式,作为普通的JAVA程序
按循序输入以下命令:
(1)mkdir input
(2)cp etc/hadoop/*.xml input
(3)bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
此命令是执行mapreduce下的范例程序的jar包,主类是grep,输入文件夹是input,输出文件夹是output,输出文件夹一定是一个不存在的文件夹
(4)查看运行结果:
二、WordCount案例
1、创建文件夹wcinput,在该文件夹下创建wc.input文件,输入几个测试单词
2、执行jar包
推出到上一级目录,输入以下命令:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
原理同上
3、查看输出结果