第2章 大数据处理架构Hadoop
第2章 大数据处理架构Hadoop
2.1 Hadoop的特性
1.高可靠性:采用冗余数据存储方式。
2.高效性:采用分布式处理和存储两大核心技术。
3.高可扩展性:运行在廉价的计算机集群上。
4.高容错性:冗余数据存储,自动保存多个副本。
5.成本低:运行在廉价的计算机集群上。
6.运行在Linux平台上。
7.支持多种语言。
2.2 Hadoop应用现状
2.3 Hadoop生态系统
Mahout:
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中.
2.4 Hadoop的安装和使用
主要步骤
1.创建hadoop用户
2.安装java
3.设置SSH登录权限
4.单机安装配置
5.伪分布式安装配置
出现的问题
有个别文件权限不够,需要修改。
2.5 Hadoop集群节点类型
1.NameNode:负责协调群中的数据存储
2.DataNode:存储被拆分的数据库
3.JobTracker:协调数据计算任务
4.TaskTracker:负责执行由JobTracker指派的任务
5.SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息