伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

SSH免密

首先关闭防火墙，必须得两个一起关闭

centOS 6.5关闭防火墙步骤

关闭命令（暂时）： service iptables stop
永久关闭防火墙：chkconfig iptables off

两个命令同时运行，运行完成后查看防火墙关闭状态
service iptables status

1. 检测ssh是否安装

Rpm -qa | grep ssh

若没安装执行ssh命令：yum install openssh-clients

yum install openssh-service

2. 创建一个hadoop的用户

useradd -m hadoop -s /bin/bash

3. 配置SSH无密码登录

Ssh localhost

3.1： cd ~/.ssh/

（如果没有这个目录。先执行ssh localhost，再执行cd ~/.ssh/）

3.2：ssh-****** -t dsa (创建)

3.3：cat id_dsa.pub >> authorized_keys 加入授权

3.4：chmod 700 ./ authorized_keys 修改权限

3.5：vi /etc/ssh/sshd_config 取消三个变量的注释

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

3.6：重启sshd服务 service sshd restart

3.7：ssh localhost 没有提示输入密码就是成功

安装java环境变量：

一般centos默认安装java。默认安装JRE 不是JDK

第一步：

yum install java-1.7.0-openjdk java-1.7.0-openjdk-devel

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

默认安装目录：/usr/lib/jvm/java-1.7.0-openjdk

执行：rpm -ql java-1.7.0-openjdk-devel | grep /bin/javac

Java -version 命令查看JDK是否安装成功

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

保证java和javac命令全局都能使用：

vi /etc/profile （在x-shell中查看这样可以粘贴）

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

在profile最后面加入以下语句，设置JAVA_HOME

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk.x86_64

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

（以上三行直接粘贴复制）

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

Source /etc/profile 修改的Javahome变量生效

Echo $JAVA_HOME （显示安装路径就证明成功了）

hadoop单机模式安装

1. 通过工具把hadoop安装包和mds文件发送到服务器。在Xshell(先下载 lrzsz 这个拉文件所需的工具) 中先切换到

root /home/hadoop目录下再把两个直接拉进hadoop下

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

输入：cat hadoop-2.6.0.tar.gz.mds | grep 'MD5'

md5sum hadoop-2.6.0.tar.gz | tr "A-Z" "a-z"

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

2. 验证tar包的完整性

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

3. 切换到root用户，进入到/home/hadoop目录下。解压安装安装包到/usr/local/hadoop

执行命令：

解压安装命令完成之后会在/usr/local自动生成一个hadoop2.6.0的文件。

解压成功最后几行（解压太多刷屏了）

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

然后修改权限：

mv hadoop-2.6.0/ hadoop/ 更改文件名称

chown -R hadoop:hadoop ./hadoop 修改权限

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

查看hadoop是否安装成功:进入到/usr/local/hadoop/bin 执行./hadoop version

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

例子测试：进入hadoop: cd /usr/local/hadoop

创建input : mkdir ./input

cp ./etc/hadoop/*.xml ./input

把配置文件复制到input目录下

再进入：vi /etc/hosts

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z]+'

这是一行不要分开写直接粘贴复制

进入：cd output

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

cat part-r-00000

使用source ~/.bashrc 命令使配置生效（输入之后没有反应说明成功了）

hadoop2.5.0 CDH 伪分布安装配置文件

配置hadoop
cd /usr/local/hadoop/etc/hadoop

第一个：hadoop-env.sh
vim hadoop-env.sh
#第27行
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk.x86_64

第二个：core-site.xml

<property>
<name>fs.defaultFS</name>
<value>hdfs://主机名:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
</property>

第三个：hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>admin:50090</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>admin:50070</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/nn/name</value>
</property>
<property>
<name>dfs.namenode.edits.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/nn/edits</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/snn/name</value>
</property>
<property>
<name>dfs.namenode.checkpoint.edits.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/snn/edits</value>
</property>

</configuration>

第四个：mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop-yarn.admin:19888</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop-yarn.admin:10020</value>
</property>
<property>
<name>mapreduce.job.ubertask.enable</name>
<value>true</value>
</property>
</configuration>

第五个：yarn-site.xml
<configuration>


<property>
<name>yarn.resourcemanager.hostname</name>
<value>admin</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
</configuration>

第六个 yarn-env.sh
export HADOOP_YARN_PID_DIR=/usr/local/hadoop/tmp
第七个 hadoop-env.sh