大数据学习04：搭建Hadoop环境

搭建Hadoop的环境

2019年3月25日星期一

今日头条App多频道超24小时未更新，字节跳动回应：很快恢复
京东汽车业务自有品牌“京安途”正式上线，深挖汽车后市场
李嘉诚旗下欧洲电信运营商“3公司”力挺华为，禁购将让5G商用推迟一年半
复旦大学与BOSS直聘合作，人才大数据助力高校职业教育
大学生艺术教育平台「36艺」获Pre-A轮3000万元融资
more /etc/hosts 查看主机名
tar -zxvf hadoop压缩包 -C ~/install_path

二、Hadoop安装配置

（一) 准备工作

            1、安装Linux和配置Linux
            2、关闭防火墙、配置主机名
            3、安装JDK
            4、解压安装包

（二）Hadoop的目录结构

            安装tree命令
            
            设置Hadoop的环境变量：
                1、进入到Hadoop的安装路径
                2.vi ~/.bash_profile在文件的最后添加
                HADOOP_HOME=/opt/module/hadoop-2.7.3
                export HADOOP_HOME
                PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
               export PATH
               3.生效 source ~/.bash_profile

（三）Hadoop的三种模式

1、本地模式

                特点：没有HDFS，只能测试Map Reduce程序（不是运行在Yarn中，做一个独立的JAVA程序来运行）

大数据学习04：搭建Hadoop环境

                只配置JAVA_HOME就行

2、伪分布模式

                 特点：在单机上，模拟一个分布式的环境，具备Hadoop的所有功能
                 HDFS：NameNode+DataNode +SecondaryNameNode 
                 Yarn：ResourceManager +NodeManager

大数据学习04：搭建Hadoop环境

           （*） hdfs-site.xml
                <!--配置数据块的冗余度-->
                <!--原则冗余度跟数据节点个数保持一致，最大不要超过3-->
                <property>
                    <name>dfs.replication</name>
                    <value>3</value>
                </property>
                
                 <!--是否开启HDFS的权限检查，默认是true-->
                <property>
                    <name>dfs.permissions</name>
                    <value>false</value>
                </property>
                
           （*）  core-site.xml 
               <!--RPS的通信端口-->
                 <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://linux01:9000</value>
                </property>
                
        <!--HDFS数据块和元信息在操作系统的目录位置 一定要修改-->
                <property>
                    <name>hadoop.tmp.dir</name>
                    <value>/root/temp</value>
                </property>
                
           （*） mapred-site.xml
           
           (重命名文件)
           mv mapred-site.template.xml mapred-site.xml
           
                <!--MR程序运行容器或者框架-->
               
                <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
                </property>
                
                
         （*） yarn-site.xml
           
           <!--配置yarn主节点的位置-->
           
                <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>linux01</value>
                </property>
                
               <!--NodeManager 执行任务的方式是Shuffle-->
           
                <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
                </property>
               
           （*）对HDFS的NameNode进行格式化 ----->目录：/root/temp/
          举例：软盘需要格式化
          命令：hdfs namenode -format

大数据学习04：搭建Hadoop环境

勉密码登陆

大数据学习04：搭建Hadoop环境

3、全分布模式：真正用于生产环境

大数据学习04：搭建Hadoop环境

        1、至少需要3台机器
        2、集群的规划
       3、准备工作
        （*）安装三台Linux JDK、关闭防火墙
        （*）设置主机名和IP  vi etc/host
                10.1.255.130 linux01
                10.1.255.131 linux02
                10.1.255.132 linux03
                10.1.255.133 linux04
        
        （*）配置勉密码登陆，两两之间的勉密码登陆
        more etc/host
               拷贝公钥命令：
               ssh-copy-id -i .ssh/id_rsa.pub linux01
               ssh-copy-id -i .ssh/id_rsa.pub linux02
               ssh-copy-id -i .ssh/id_rsa.pub linux03
               ssh-copy-id -i .ssh/id_rsa.pub linux04
               
        （*） 保证集群的时间同步（搭建一个时间同步的服务器（网络时间））
         date -s 2018-08-31(设置一个死的时间)
         
      4、主节点上安装（linux01）
      
      解压Hadoop压缩包
      tar -zxvf （压缩包）（ 解压路径）
      
      配置从节点地址
      ls slaves
      
      vi slaves
      
      linux02
      linux03
      linux04
      
      (*)对namenode进行格式化
    5、把112上安装好的目录复制到从节点上
    
    scp -r hadoop-2.7.3 [email protected]:/root/training(-r表示目录及子目录)
    
    6、在主节点上启动集群
        start-all.sh
    
    7、跟伪分布一样，在主节点执行wordCount

三主从节点的单点故障

      主节点死了，整个就不能用了

大数据学习04：搭建Hadoop环境

大数据学习04：搭建Hadoop环境

搭建Hadoop的环境

二、Hadoop安装配置

（一) 准备工作

（二）Hadoop的目录结构

（三）Hadoop的三种模式

1、本地模式

2、伪分布模式

3、全分布模式：真正用于生产环境

三 主从节点的单点故障

相关推荐

三主从节点的单点故障