大数据处理框架 Hadoop 简介,安装与使用教程——《大数据技术原理与应用》课程学习总结

第二章

2.1 概述

2.1.1 Hadoop 简介

Hadoop 是基于 Java 语言开发的,具有很好的跨平台特性,并且可以部署在廉价地计算机集群中。Hadoop 的核心是 分布式文件系统(HDFS)MapReduce

HDFS 是针对谷歌文件系统(GFS)的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可很伸缩性,支持大规模数据的分布式存储,其荣誉数据存储的方法很好地保证了数据的安全性。

MapReduce 是针对谷歌的 MapReduce 的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用 MapReduce 来整合分布数文件系统上的数据,可以保证分析和处理数据的高效性。

2.1.3 Hadoop 的特性

  • 高可靠性
  • 高效性
  • 高可扩展性
  • 高容错性
  • 低成本
  • 运行在 Linux 平台上
  • 支持多种编程语言

2.2 Hadoop 生态系统

大数据处理框架 Hadoop 简介,安装与使用教程——《大数据技术原理与应用》课程学习总结

2.3 Hadoop 的安装与使用

参考此网站的安装步骤和使用实例(非常详细)

安装过程中需要注意的是:在 hadoop 正常启动之后,如果按照上面的教程,在浏览器输入 http://locallhost:50070 无法访问,就将端口改为9870

hadoop3.0之前版本端号是 50070,hadoop 3.0 之后版本端号为9870