第2章大数据处理架构Hadoop

2.1 Hadoop的特性

1.高可靠性：采用冗余数据存储方式。

2.高效性：采用分布式处理和存储两大核心技术。

3.高可扩展性：运行在廉价的计算机集群上。

4.高容错性：冗余数据存储，自动保存多个副本。

5.成本低：运行在廉价的计算机集群上。

6.运行在Linux平台上。

7.支持多种语言。

2.2 Hadoop应用现状

第2章大数据处理架构Hadoop

2.3 Hadoop生态系统

第2章大数据处理架构Hadoop

Mahout:

Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中.

2.4 Hadoop的安装和使用

主要步骤

1.创建hadoop用户

2.安装java

3.设置SSH登录权限

4.单机安装配置

5.伪分布式安装配置

出现的问题

有个别文件权限不够，需要修改。

2.5 Hadoop集群节点类型

1.NameNode：负责协调群中的数据存储

2.DataNode：存储被拆分的数据库

3.JobTracker：协调数据计算任务

4.TaskTracker：负责执行由JobTracker指派的任务

5.SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息

第2章 大数据处理架构Hadoop