Hadoop基础复习(一)

概念:Apache Hadoop 一款用于可靠的、可扩展的、分布式计算的开源项目。Hadoop 软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大数据进行分布式处理。它被设计成扩展的,从单一服务器到上千台机器,每台机器提供本地仓储运算。库并不是依靠硬件来提供高可用性,而是被设计用来检测,处理应用层故障,因此其是在计算机集群的顶部提供高可用的服务,每台机器都容易发生故障。
特点 : 一般适用于一次写入,多次读取

  • 可扩展性 scalable
  • 高可用 High Availability
  • 高容错 fault-tolerant
  • 高吞吐量 High throughput
    Hadoop框架核心设计 : HDFS Mapreduce,hdfs为海量数据提供存储, mapreduce提供计算
    Hadoop主要项目
  • Hadoop Common: 支撑其他模块
  • HDFS (Hadoop Distributed FileStstem)
  • Mapreduce
  • YARN (Yet Another Resource Negotiator)
    Hadoop相关项目
  • Avro: 一个比较流行的数据序列化系统,可以提供丰富的结构类型,快速可压缩的二进制数据格式,存储持久化数据,支持RPC协议(Remote Procedure Call Protocol)
  • Hbase :一个分布式的面向列的开源数据库,可以称为Hadoop的标准数据库,也是一款比较流行的NoSQL 数据库,Hbase 在Hadoop的基础上提供了类似Bigtable的能力,主要解决非关系型数据存储问题。
  • Hive : 本身是建立在Hadoop体系结构上的数据仓库基础架构,可以将结构化的数据文件映射为一张数据库表,并提供完整的查询语句(类SQL语句),可以将sql语句翻译成mapreduce执行。它提供了一系列的工具,可以用来进行数据ETL(Extract-Transformation-Load),这是一种可以存储、查询和分析并存储在Hadoop中的大规模数据处理的机制
  • Spark:快速通用的集群计算系统。
  • Zookeeper:一个能够高效开发和维护分布式的应用协调服务,是Hadoop和Hbase的重要组件。他是一个为分布式应用提供一致性服务的软件,提供的功能包括维护配置信息、名字服务、分布式同步、组服务等。这些服务都被应用在分布式应用程序或一些其他形式。
    HDFS体系结构
    HDFS的体系结构如图。HDFS有两类节点:NameNode,DataNode。NameNode管理文件系统的命名空间。它维护着文件系统树及其中所有的文件和目录,这些信息以两个文件保存磁盘中:命名空间镜像文件和编辑日志文件。NameNode同时记录着每个文件中block在节点上的信息,但他并不永久保存block的位置信息,这些信息会在
    系统启动时动态重建。
    Hadoop基础复习(一)
    HDFS文件存储机制:从上图可以看出,HDFS是一个主从结构(master-slaves)。![在这里插入图片描述](https://img-blog.****img.cn/20200109103750890.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTIwNzM4OA==,size_16,color_FFFFFF,t_70