大数据学习04:搭建Hadoop环境

搭建Hadoop的环境

2019年3月25日 星期一

  1. 今日头条App多频道超24小时未更新,字节跳动回应:很快恢复

  2. 京东汽车业务自有品牌“京安途”正式上线,深挖汽车后市场

  3. 李嘉诚旗下欧洲电信运营商“3公司”力挺华为,禁购将让5G商用推迟一年半

  4. 复旦大学与BOSS直聘合作,人才大数据助力高校职业教育

  5. 大学生艺术教育平台「36艺」获Pre-A轮3000万元融资
    more /etc/hosts 查看主机名
    tar -zxvf hadoop压缩包 -C ~/install_path

二、Hadoop安装配置

(一) 准备工作
            1、安装Linux和配置Linux
            2、关闭防火墙、配置主机名
            3、安装JDK
            4、解压安装包
(二)Hadoop的目录结构
            安装tree命令
            
            设置Hadoop的环境变量:
                1、进入到Hadoop的安装路径
                2.vi ~/.bash_profile在文件的最后添加
                HADOOP_HOME=/opt/module/hadoop-2.7.3
                export HADOOP_HOME
                PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
               export PATH
               3.生效 source ~/.bash_profile
(三)Hadoop的三种模式
1、本地模式
                特点:没有HDFS,只能测试Map Reduce程序(不是运行在Yarn中,做一个独立的JAVA程序来运行)

大数据学习04:搭建Hadoop环境

                只配置JAVA_HOME就行
2、伪分布模式
                 特点:在单机上,模拟一个分布式的环境,具备Hadoop的所有功能
                 HDFS:NameNode+DataNode +SecondaryNameNode 
                 Yarn:ResourceManager +NodeManager

大数据学习04:搭建Hadoop环境

           (*) hdfs-site.xml
                <!--配置数据块的冗余度-->
                <!--原则冗余度跟数据节点个数保持一致,最大不要超过3-->
                <property>
                    <name>dfs.replication</name>
                    <value>3</value>
                </property>
                
                 <!--是否开启HDFS的权限检查,默认是true-->
                <property>
                    <name>dfs.permissions</name>
                    <value>false</value>
                </property>
                
           (*)  core-site.xml 
               <!--RPS的通信端口-->
                 <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://linux01:9000</value>
                </property>
                
        <!--HDFS数据块和元信息在操作系统的目录位置 一定要修改-->
                <property>
                    <name>hadoop.tmp.dir</name>
                    <value>/root/temp</value>
                </property>
                
           (*) mapred-site.xml
           
           (重命名文件)
           mv mapred-site.template.xml mapred-site.xml
           
                <!--MR程序运行容器或者框架-->
               
                <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
                </property>
                
                
         (*) yarn-site.xml
           
           <!--配置yarn主节点的位置-->
           
                <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>linux01</value>
                </property>
                
               <!--NodeManager 执行任务的方式是Shuffle-->
           
                <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
                </property>
               
           (*)对HDFS的NameNode进行格式化 ----->目录:/root/temp/
          举例:软盘需要格式化
          命令:hdfs namenode -format 

大数据学习04:搭建Hadoop环境

勉密码登陆

大数据学习04:搭建Hadoop环境

3、全分布模式:真正用于生产环境

大数据学习04:搭建Hadoop环境

        1、至少需要3台机器
        2、集群的规划
       3、准备工作
        (*)安装三台Linux JDK、关闭防火墙
        (*)设置主机名和IP  vi etc/host
                10.1.255.130 linux01
                10.1.255.131 linux02
                10.1.255.132 linux03
                10.1.255.133 linux04
        
        (*)配置勉密码登陆,两两之间的勉密码登陆
        more etc/host
               拷贝公钥命令:
               ssh-copy-id -i .ssh/id_rsa.pub linux01
               ssh-copy-id -i .ssh/id_rsa.pub linux02
               ssh-copy-id -i .ssh/id_rsa.pub linux03
               ssh-copy-id -i .ssh/id_rsa.pub linux04
               
        (*) 保证集群的时间同步(搭建一个时间同步的服务器(网络时间))
         date -s 2018-08-31(设置一个死的时间)
         
      4、主节点上安装(linux01)
      
      解压Hadoop压缩包
      tar -zxvf (压缩包)( 解压路径)
      
      配置从节点地址
      ls slaves
      
      vi slaves
      
      linux02
      linux03
      linux04
      
      (*)对namenode进行格式化
    5、把112上安装好的目录复制到从节点上
    
    scp -r hadoop-2.7.3 [email protected]:/root/training(-r表示目录及子目录)
    
    6、在主节点上启动集群
        start-all.sh
    
    7、跟伪分布一样,在主节点执行wordCount

三 主从节点的单点故障

      主节点死了,整个就不能用了

大数据学习04:搭建Hadoop环境