大型架构及配置技术大数据（一）之大数据，Hadoop，Hadoop安装与配置，HDFS

一、大数据
1.大数据的由来
随着计算机技术的发展，互联网的普及，信息的积累已经到了一个非常庞大的地步，信息的增长也在不断的加快，随着互联网，物联网建设的加快，信息更是爆炸式增长，收集，检索，统计这些信息越发困难，必须使用新的技术来解决这些问题

2.大数据的定义
大数据指无法在一定时间范围内用常规软件工具进行捕捉，管理和处理的数据集合，需要新处理模式才能具有更强的决策力，洞察发现力和优化能力的海量，高增长率和多样化的信息资产
是指从各种各样类型的数据中，快速获得有价值的信息

3.大数据的作用
   企业组织利用相关数据分析帮助他们降低成本，提高效率，开发新产品，做出更明智的业务决策等
   把数据集合并后进行分析得出的信息和数据关系性，用来察觉商业趋势，判定研究质量，避免疾病扩散，打击犯罪或测定即时交通状况
   大规模并行处理数据库，数据挖掘电网，分布式文件系统或数据库，云计算平和可扩展的存储系统等

4.大数据特性
   数量（Volume）：
       TB级
       记录/日志
       事务
       表和文件
   速度（Velocity）：
       批处理
       实时
       多进程
       数据流
   真实性（Veracity）：
       可信性
       真伪性
       来源和信誉
       有效性
       可审计性
   种类（Variety）：
       结构化
       非结构化
       多因素
       概率性
   价值（Value）：
       统计学
       事件性
       相关性
       假设性

5.大数据与Hadoop
   Hadoop是一种分析和处理海量数据的软件平台
   Hadoop是一款开源软件，使用JAVA开发
   hadoop可以提供一个分布式基础架构
   特点：
       高可靠性，高扩展性，高效性，高容错性，低成本

二、Hadoop
1.Hadoop起源
   2003年开始Google陆续发表了3篇论文
       GFS，MapReduce，BigTable
   GFS
       GFS是一个可扩展的分布式文件系统，用于大型的，分布式的，对大量数据进行访问的应用
   MapReduce
       MapReduce是针对分布式并行计算的一套编程模型，由Map和Reduce组成，Map是映射，把指令分发到多个worker上，Reduce是规约，把worker计算出的结构合并
   BigTable
       BigTable是存储结构化数据
       BigTable建立在GFS，Scheduler，Lock Service和MapReduce之上
       每个Table都是一个多维的系数图
   GFS，MapReduce和BigTable三大技术被称为Google的三驾马车，虽然没有公布源码，但发布了三个产品的详细设计论
   Yahoo资助的Hadoop，是按照这三篇论文的开源Java实现的，但在性能上Hadoop比Google要差很多
       GFS ---> HDFS
       MapReduce ---> MapReduce
       BigTable ---> Hbase

2.Hadoop常用组件
   HDFS：Hadoop分布式文件系统（核心组件）
   MapReduce：分布式计算框架（核心组件）
   Yarn：集群资源管理系统（核心组件）
Zookeeper：分布式协作服务
   Hbase：分布式列存数据库
   Hive：基于Hadoop的数据仓库
   Sqoop：数据同步工具
   Pig：基于Hadoop的数据流系统
   Mahout：数据挖掘算法库
   Flume：日志收集工具

3.Hadoop核心组件