第2章 大数据处理架构Hadoop

第2章 大数据处理架构Hadoop

2.1 Hadoop的特性

1.高可靠性:采用冗余数据存储方式。

2.高效性:采用分布式处理和存储两大核心技术。

3.高可扩展性:运行在廉价的计算机集群上。

4.高容错性:冗余数据存储,自动保存多个副本。

5.成本低:运行在廉价的计算机集群上。

6.运行在Linux平台上。

7.支持多种语言。


2.2 Hadoop应用现状

第2章 大数据处理架构Hadoop


2.3 Hadoop生态系统

第2章 大数据处理架构Hadoop

第2章 大数据处理架构Hadoop

Mahout:

​ Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中.


2.4 Hadoop的安装和使用

主要步骤

1.创建hadoop用户

2.安装java

3.设置SSH登录权限

4.单机安装配置

5.伪分布式安装配置

出现的问题

有个别文件权限不够,需要修改。


2.5 Hadoop集群节点类型

1.NameNode:负责协调群中的数据存储

2.DataNode:存储被拆分的数据库

3.JobTracker:协调数据计算任务

4.TaskTracker:负责执行由JobTracker指派的任务

5.SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息