大数据环境的简介和环境配置

大数据环境的简介和环境配置
Hadoop体系组成
环境简介
环境配置
ØStep 1: 安装Java
ØStep 2: 创建用户帐号
ØStep 3: 增加映射节点
ØStep 4: 配置基于**的ssh登录
ØStep 5: 下载并解压Hadoop
ØStep 6: 配置Hadoop
ØStep 7: 配置Hadoop Slave服务器
ØStep 8: 配置主服务器Hadoop
ØStep 9: 启动Hadoop服务
参考信息
附录 - 案例分析
大数据环境的简介和环境配置

什么是Hadoop

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。

HDFS
Ø Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统,基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运行在集群的商品硬件上。它是容错的,可伸缩的,并且非常易于扩展
MapReduce
ØMapReduce是一种处理技术和程序模型基于Java的分布式计算MapReduce算法包含了两项重要任务,即MapReduce。Map采用了一组数据,并将其转换成另一组数据,其中,各个元件被分解成元组(键/值对)。其次,减少任务,这需要从Map 作为输入并组合那些数据元组成的一组小的元组输出。作为MapReduce暗示的名称的序列在Map作业之后执行reduce任务
Yarn
ØApache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
 
Step 1: 安装Java
Step 2: 创建用户帐号
Step 3: 增加映射节点
Step 4: 配置基于**的ssh登录
Step 5: 下载并解压Hadoop
Step 6: 配置Hadoop
Step 7: 配置Hadoop Slave服务器
Step 8: 配置主服务器Hadoop
Step 9: 启动Hadoop服务
第1步:下载Java,http://ftp.osuosl.org/pub/funtoo/distfiles/oracle-java/jdk-8u144-linux-x64.tar.gz
第2步:解压安装安装包,tar -zxvf jdk-8u144-linux-x64.tar.gz -C <目标目录>
第3步:配置环境变量
Øexport JAVA_HOME=<目标目录>/jdk1.8.0_144/
Øexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
Øexport PATH=$PATH:$JAVA_HOME/bin
          ●在主、从结点的机器上创建一个一般用户帐户来安装与运行Hadoop
          ●useradd hadoop
          ●passwd hadoop
编辑各个服务器的所在结点的/etc/hosts文件,指定各个服务器的ip地址和主机名称
Ø192.168.33.40    master
Ø192.168.33.41    slave1
Ø192.168.33.42    slave2
在各个节点设置ssh公、私钥对,完成各个服务器的无密码安全登录,步骤:
Øsu - hadoop
Øssh-****** -t rsa -N ""
Øfor $host in master slave1 slave2; do
üssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]$host;
Ødone;
 
下载Hadoop安装文件包,并解压安装到其中一个服务器节点上
Øwget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-{{ hadoop_version }}/hadoop-{{ hadoop_version }}.tar.gz
Øtar -zxvf hadoop-{{ hadoop_version }}.tar.gz -C /opt/
Øfor $dir in tmp hdfs hdfs/namenode hdfs/tmp hdfs/datanode; do
ümkdir -p $dir;
Ødone
 

core-site.xml 

 大数据环境的简介和环境配置

 hdfs-site.xml

大数据环境的简介和环境配置

mapred-site.xml

大数据环境的简介和环境配置 

 将配置好的Hadoop传输到slave服务器

for $slave in slave1 slave2; do

scp -r /opt/hadoop-1.8.2 [email protected]$slave:/opt/

done

配置主服务器信息
Øvi etc/hadoop/masters
Ø将master的主机名字写入文件, 一个一行
配置从服务器信息
Øvi etc/hadoop/slaves
Ø将slave主机名字定稿文件,一个一行
Hadoop主服务器上格式化Hdfs
Øbin/hdfs namenode -format
启动Hadoop服务
Øsbin/start-all.sh

大数据环境的简介和环境配置

大数据环境的简介和环境配置