Hadoop笔记

Hadoop笔记 linux中搭建hadoop开发环境

hadoop是什么？

hadoop是一个平台，是一个适合大数据的分布式存储和计算的平台。

hadoop核心：1.HDFS；2.MapReduce。

hadoop安装方式|hadoop部署方式
hadoop安装方式只有三种：单机安装；伪分布安装；集群安装。
单机方式：在一台上安装运行Hadoop系统，
伪分布式：在单机上用伪分布方式用不同的Java进程模拟分布运行中的namenode、datanode、jobtracker、tasktracker等各类节点。
集群分布：在一个真实的集群环境下运行Hadoop系统，单机模式和和伪分布模式均是用于调试和开发的目的，真正的Hadoop 应用是采用的集群模式。因此我们需要几台服务器主机。

0.下载jdk
登录网址：http://www.oracle.com/technetwork/java/javase/downloads/
选择对应jdk版本下载。（可在Windows下下载完成后，通过文件夹共享到Linux上）

1.登录Linux，切换到root用户

2.在usr目录下建立java安装目录

命令mkdir usr/java

3.将jdk-10-linux-x64.tar.gz拷贝到java目录下并解压

命令：cp /mnt/hgfs/Ubuntu\ share/jdk-10-linux-x64.tar.gz /usr/java

tar -zxvf jdk-10-linux-x64.tar.gz

Hadoop笔记

解压后会生成一个目录：jdk-10，为了便于后期配置java环境变量，我们把这个目录重命名为jdk。
命令：mv /usr/java/jdk-10 /usr/java/jdk；

4.接着配置jdk环境变量，编辑/etc/profile文件。
命令：vi /etc/profile
添加如下内容：
JAVA_HOME=/usr/java/jdk
CLASSPATH=$JAVA_HOME/lib/
PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME CLASSPATH

Hadoop笔记

重启机器或执行
命令：source/etc/profile
查看安装情况:java-version
Hadoop笔记

5.配置ssh无密码认证。
执行如下命令：ssh-******。此处可以一直敲回车。执行完之后
ls /root/.ssh/
可以在目录下看见两个**这是SSH的一对私钥和公钥，
类似于钥匙及锁，把id_dsa.pub（公钥）追加到授权的key里面去。
输入命令：
cp /root/.ssh/id_dsa.pub /root/.ssh/authorized_keys
这条命令是把公钥加到用于认证的公钥文件中，这里的authorized_keys是用于认证的公钥文件

Hadoop笔记

验证SSH是否可以无密码登录本机 ssh localhost

Hadoop笔记

6.解压安装Hadoop
官网下载Hadoop http://mirrors.hust.edu.cn/apache/hadoop/common/
拷贝到/usr/java目录下，并解压缩。
命令：tar zxvf hadoop-2.9.0.tar.gz；
解压后会生成一个名为 hadoop-2.9.0的目录，我们接着把这个目录重命名为hadoop。

命令：mv /usr/java/hadoop-2.9.0 /usr/Java/hadoop;

Hadoop笔记

7.接着配置环境变量。（伪分布模式的配置）

conf/hadoop-env.sh; Hadoop环境变量
conf/core-site.xml 主要完成namenode的ip和端口设置
conf/hdfs-site.xml 主要完成hdfs的数据块副本等参数设置
conf/mapred-site.xml主要完成jobtrackerip和端口设置
conf/masters 完成master结点ip设置

conf/slaves 完成slaves结点ip设置

命令ls /usr/java/hadoop/etc/hadoop/四个配置文件在这里
a.指定JDK的安装位置：
在Hadoop-env.sh中：
export JAVA_HOME=””
Hadoop笔记