Hadoop基础理论及win7安装Hadoop

1、数据类型

  • 结构化数据:关系数据。
  • 半结构化数据:XML数据。
  • 非结构化数据:Word, PDF, 文本,媒体日志
    2、 大数据的挑战
  • 采集数据
  • 策展
  • 存储
  • 搜索
  • 分享
  • 传输
  • 分析
  • 展示
    3、Hadoop 架构
  • 加工/计算层(MapReduce):一种并行编程模型,用于编写普通硬件的设计,谷歌对大量数据的高效处理(多TB数据集)的分布式应用在大型集群(数千个节点)以及可靠的容错方式。 MapReduce程序可在Apache的开源框架Hadoop上运行。
  • 存储层(Hadoop分布式文件系统(HDFS)):基于谷歌文件系统(GFS),并提供了一个设计在普通硬件上运行的分布式文件系统。
    4、两个模块
  • Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具。
  • Hadoop YARN :这是作业调度和集群资源管理的框架
    5、Hadoop工作模式
    Hadoop运行整个计算机集群代码。这个过程包括以下核心任务由 Hadoop 执行:
  • 数据最初分为目录和文件。文件分为128M和64M(128M最好)统一大小块。
  • 然后这些文件被分布在不同的群集节点,以便进一步处理。
  • HDFS,本地文件系统的顶端﹑监管处理。
  • 块复制处理硬件故障。
  • 检查代码已成功执行。
  • 执行发生映射之间,减少阶段的排序。
  • 发送排序的数据到某一计算机。

6、优势

  • Hadoop框架允许用户快速地编写和测试的分布式系统。有效并在整个机器和反过来自动分配数据和工作,利用CPU内核的基本平行度。
  • Hadoop不依赖于硬件,以提供容错和高可用性(FTHA),而Hadoop库本身已被设计在应用层可以检测和处理故障。
  • 服务器添加或从集群动态删除,Hadoop可继续不中断地运行。
  • Hadoop基于Java并兼容所有的平台。

Win7 安装hadoop并配置hadoop环境

该博文已很详细:需要补充一小点,如果你的hosts文件修改过,在配置yarn-site.xml时,将master改为你配置的DNS即可

如图:
Hadoop基础理论及win7安装Hadoop

Hadoop基础理论及win7安装Hadoop