第五课记录 Hadoop的起源——Google的基本思想之一

主题：Hadoop高可用性（HA）的原理和实现
1、什么是HA？: 防止主节点死掉了，造成整个集群无法访问
2、ZooKeeper简介
3、Hadoop高可用性的实现原理
4、Demo演示：Hadoop的HA

一、上次公开课内容回顾

数据领域：
  1、OLAP：online analytic processing 联机分析处理 ---> 传统：数据仓库 ---> 大数据
  2、OLTP：online transaction processing 联机事务处理 ---> 关系型数据：Oracle、MySQL*****

  大数据的领域中，基本都是主从结构

            主节点从节点
  1、HDFS NameNode DataNode
  2、Yarn ResourceManager NodeManager
  3、HBase HMaster RegionServer
  4、Spark Master Worker
  5、Storm Nimbus Supervisor

二、Hadoop的起源——Google的基本思想之一：GFS
  1、Google低成本思想: 使用很多的屌丝来代表一个高富帅
  2、基本思想之一：GFS（Google File System） ---> 分布式的文件系统 ----> HDFS
  3、演示Demo：HDFS的全分布环境（3台）
      hadoop112: NameNode（HDFS的主节点、管理员）
      hadoop113: DataNode(HDFS的从节点，数据节点)
      hadoop114: DataNode(HDFS的从节点，数据节点)

      查看Java的后台进程：jps工具
      命令：start-dfs.sh
      日志：
          hadoop112: starting namenode(主节点), logging to /root/training/hadoop-2.4.1/logs/hadoop-root-namenode-hadoop112.out
          192.168.88.114: starting datanode(从节点), logging to /root/training/hadoop-2.4.1/logs/hadoop-root-datanode-hadoop114.out
          192.168.88.113: starting datanode(从节点), logging to /root/training/hadoop-2.4.1/logs/hadoop-root-datanode-hadoop113.out

命令：查看HDFS的状态 hdfs dfsadmin -report

      Java API: 暂时不讲
      Web Console: http://192.168.88.112:50070

  倒排索引：是在一个分布式的文件中，如何找到数据？
  复习：什么索引？
      问题：索引一定可以提高查询的速度吗？

三、问题：万一要是主节点死了，怎么办？ ----> 搭建HA(high avaibility)的环境

Hadoop的安装模式：
1、本地模式：一台
2、伪分布模式：一台
3、全分布环境：3台机器

第五课记录 Hadoop的起源——Google的基本思想之一

第五课记录 Hadoop的起源——Google的基本思想之一

相关推荐