大数据环境的简介和环境配置

●Hadoop体系组成

●环境简介

●环境配置

ØStep 1: 安装Java

ØStep 2: 创建用户帐号

ØStep 3: 增加映射节点

ØStep 4: 配置基于**的ssh登录

ØStep 5: 下载并解压Hadoop

ØStep 6: 配置Hadoop

ØStep 7: 配置Hadoop Slave服务器

ØStep 8: 配置主服务器Hadoop

ØStep 9: 启动Hadoop服务

●参考信息

●附录 - 案例分析

什么是Hadoop

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关，迅速发展成为分析大数据的领先平台。

●HDFS

Ø Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统，基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件，运行在集群的商品硬件上。它是容错的，可伸缩的，并且非常易于扩展。

●MapReduce

ØMapReduce是一种处理技术和程序模型基于Java的分布式计算。 MapReduce算法包含了两项重要任务，即Map 和 Reduce。Map采用了一组数据，并将其转换成另一组数据，其中，各个元件被分解成元组(键/值对)。其次，减少任务，这需要从Map 作为输入并组合那些数据元组成的一组小的元组输出。作为MapReduce暗示的名称的序列在Map作业之后执行reduce任务。

●Yarn

ØApache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

●Step 1: 安装Java

●Step 2: 创建用户帐号

●Step 3: 增加映射节点

●Step 4: 配置基于**的ssh登录

●Step 5: 下载并解压Hadoop

●Step 6: 配置Hadoop

●Step 7: 配置Hadoop Slave服务器

●Step 8: 配置主服务器Hadoop

●Step 9: 启动Hadoop服务

●第1步：下载Java，http://ftp.osuosl.org/pub/funtoo/distfiles/oracle-java/jdk-8u144-linux-x64.tar.gz

●第2步：解压安装安装包，tar -zxvf jdk-8u144-linux-x64.tar.gz -C <目标目录>

●第3步：配置环境变量

Øexport JAVA_HOME=<目标目录>/jdk1.8.0_144/

Øexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

Øexport PATH=$PATH:$JAVA_HOME/bin

●在主、从结点的机器上创建一个一般用户帐户来安装与运行Hadoop

●useradd hadoop

●passwd hadoop

●编辑各个服务器的所在结点的/etc/hosts文件，指定各个服务器的ip地址和主机名称

Ø192.168.33.40 master

Ø192.168.33.41 slave1

Ø192.168.33.42 slave2

●在各个节点设置ssh公、私钥对，完成各个服务器的无密码安全登录，步骤：

Øsu - hadoop

Øssh-****** -t rsa -N ""

Øfor $host in master slave1 slave2; do

üssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]$host;

Ødone;

●下载Hadoop安装文件包，并解压安装到其中一个服务器节点上

Øwget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-{{ hadoop_version }}/hadoop-{{ hadoop_version }}.tar.gz

Øtar -zxvf hadoop-{{ hadoop_version }}.tar.gz -C /opt/

Øfor $dir in tmp hdfs hdfs/namenode hdfs/tmp hdfs/datanode; do

ümkdir -p $dir;

Ødone

●core-site.xml

大数据环境的简介和环境配置

●hdfs-site.xml

大数据环境的简介和环境配置

●mapred-site.xml

大数据环境的简介和环境配置

●将配置好的Hadoop传输到slave服务器

for $slave in slave1 slave2; do

scp -r /opt/hadoop-1.8.2 [email protected]$slave:/opt/

done

●配置主服务器信息

Øvi etc/hadoop/masters

Ø将master的主机名字写入文件，一个一行

●配置从服务器信息

Øvi etc/hadoop/slaves

Ø将slave主机名字定稿文件，一个一行

●Hadoop主服务器上格式化Hdfs

Øbin/hdfs namenode -format

●启动Hadoop服务

Øsbin/start-all.sh

大数据环境的简介和环境配置

大数据环境的简介和环境配置

相关推荐