【若泽大数据实战第九天】Yarn伪分布式部署及log日志分析
4.MapReduce和Yarn
MapReduce: 用来计算的 是jar包提交的Yarn上 本身不需要部署
Yarn: 资源和作业调度 是需要部署的
MapReduce on Yarn
下面部署Yarn:
进入/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录,
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
添加如下的记录(也就是MapReduce跑在yarn上面,也可以跑在其它的上面):
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
vi yarn-site.xml有,添加下面记录:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
意思是:yarn的nodemanager服务用的是mapreduce里的shuffle
添加后如下:
保存。
默认值在官网都可以看到的:
启动Start
ResourceManager daemon 老大 资源管理者
NodeManager daemon 小弟 节点管理者
sbin/start-yarn.sh
如果有些组件启动不了,去看日志。
然后就可以用http://ip:8088/访问web界面了。
面试题:
日志分析:
计入
hadoop-hadoop-datanode-10-9-140-90.log
hadoop-用户-进程名称-机器名称
ll -h看一下日志大小
①如果日志内容比较小,可以vi编辑,然后搜索error等,等位到错误的地方,然后分析。如果日志很大,最好不要这样,一方面不方便,另一方面系统会把几百M的内容加载到内存里,不好。
②如果日志内容比较多,可以这样:
tail -1000f hadoop-hadoop-namenode-10-9-140-90.log 倒序查看最后1000行
③还可以把日志文件用sz命令下载到自己电脑本地,然后用编辑器去分析查看。这样还可以备份。