大数据学习04:搭建Hadoop环境
搭建Hadoop的环境
2019年3月25日 星期一
-
今日头条App多频道超24小时未更新,字节跳动回应:很快恢复
-
京东汽车业务自有品牌“京安途”正式上线,深挖汽车后市场
-
李嘉诚旗下欧洲电信运营商“3公司”力挺华为,禁购将让5G商用推迟一年半
-
复旦大学与BOSS直聘合作,人才大数据助力高校职业教育
-
大学生艺术教育平台「36艺」获Pre-A轮3000万元融资
more /etc/hosts 查看主机名
tar -zxvf hadoop压缩包 -C ~/install_path
二、Hadoop安装配置
(一) 准备工作
1、安装Linux和配置Linux
2、关闭防火墙、配置主机名
3、安装JDK
4、解压安装包
(二)Hadoop的目录结构
安装tree命令
设置Hadoop的环境变量:
1、进入到Hadoop的安装路径
2.vi ~/.bash_profile在文件的最后添加
HADOOP_HOME=/opt/module/hadoop-2.7.3
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
3.生效 source ~/.bash_profile
(三)Hadoop的三种模式
1、本地模式
特点:没有HDFS,只能测试Map Reduce程序(不是运行在Yarn中,做一个独立的JAVA程序来运行)
只配置JAVA_HOME就行
2、伪分布模式
特点:在单机上,模拟一个分布式的环境,具备Hadoop的所有功能
HDFS:NameNode+DataNode +SecondaryNameNode
Yarn:ResourceManager +NodeManager
(*) hdfs-site.xml
<!--配置数据块的冗余度-->
<!--原则冗余度跟数据节点个数保持一致,最大不要超过3-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--是否开启HDFS的权限检查,默认是true-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
(*) core-site.xml
<!--RPS的通信端口-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://linux01:9000</value>
</property>
<!--HDFS数据块和元信息在操作系统的目录位置 一定要修改-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/temp</value>
</property>
(*) mapred-site.xml
(重命名文件)
mv mapred-site.template.xml mapred-site.xml
<!--MR程序运行容器或者框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
(*) yarn-site.xml
<!--配置yarn主节点的位置-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>linux01</value>
</property>
<!--NodeManager 执行任务的方式是Shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
(*)对HDFS的NameNode进行格式化 ----->目录:/root/temp/
举例:软盘需要格式化
命令:hdfs namenode -format
勉密码登陆
3、全分布模式:真正用于生产环境
1、至少需要3台机器
2、集群的规划
3、准备工作
(*)安装三台Linux JDK、关闭防火墙
(*)设置主机名和IP vi etc/host
10.1.255.130 linux01
10.1.255.131 linux02
10.1.255.132 linux03
10.1.255.133 linux04
(*)配置勉密码登陆,两两之间的勉密码登陆
more etc/host
拷贝公钥命令:
ssh-copy-id -i .ssh/id_rsa.pub linux01
ssh-copy-id -i .ssh/id_rsa.pub linux02
ssh-copy-id -i .ssh/id_rsa.pub linux03
ssh-copy-id -i .ssh/id_rsa.pub linux04
(*) 保证集群的时间同步(搭建一个时间同步的服务器(网络时间))
date -s 2018-08-31(设置一个死的时间)
4、主节点上安装(linux01)
解压Hadoop压缩包
tar -zxvf (压缩包)( 解压路径)
配置从节点地址
ls slaves
vi slaves
linux02
linux03
linux04
(*)对namenode进行格式化
5、把112上安装好的目录复制到从节点上
scp -r hadoop-2.7.3 [email protected]:/root/training(-r表示目录及子目录)
6、在主节点上启动集群
start-all.sh
7、跟伪分布一样,在主节点执行wordCount
三 主从节点的单点故障
主节点死了,整个就不能用了