伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

SSH免密

首先关闭防火墙必须得两个一起关闭

centOS 6.5关闭防火墙步骤

关闭命令暂时:  service iptables stop 
        永久关闭防火墙:chkconfig iptables off

两个命令同时运行运行完成后查看防火墙关闭状态 
        service iptables status

1. 检测ssh是否安装

Rpm -qa | grep ssh

若没安装 执行ssh命令:yum install openssh-clients

yum install openssh-service

 

2. 创建一个hadoop的用户

useradd -m hadoop -s  /bin/bash


3. 配置SSH无密码登录

   Ssh localhost

3.1: cd  ~/.ssh/  

如果没有这个目录先执行ssh localhost,再执行cd  ~/.ssh/)

3.2:ssh-****** -t dsa  (创建)

3.3:cat id_dsa.pub >> authorized_keys   加入授权

3.4:chmod 700 ./ authorized_keys 修改权限

3.5:vi /etc/ssh/sshd_config   取消三个变量的注释

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

3.6:重启sshd服务 service sshd restart

 3.7:ssh localhost  没有提示输入密码就是成功


安装java环境变量

一般centos默认安装java。默认安装JRE 不是JDK

第一步

yum install java-1.7.0-openjdk java-1.7.0-openjdk-devel

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

默认安装目录:/usr/lib/jvm/java-1.7.0-openjdk

执行:rpm -ql java-1.7.0-openjdk-devel | grep /bin/javac

Java -version 命令查看JDK是否安装成功

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 

保证javajavac命令全局都能使用

vi /etc/profile (x-shell中查看 这样可以粘贴

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

profile最后面加入以下语句设置JAVA_HOME

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk.x86_64

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

以上三行 直接粘贴复制

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

Source /etc/profile  修改的Javahome变量生效

Echo $JAVA_HOME (显示安装路径就证明成功了

hadoop单机模式安装

1. 通过工具把hadoop安装包和mds文件发送到服务器Xshell(先下载 lrzsz 这个拉文件所需的工具) 中先切换到 

root   /home/hadoop目录下 再把两个直接拉进hadoop

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

输入:cat hadoop-2.6.0.tar.gz.mds | grep 'MD5'

     md5sum hadoop-2.6.0.tar.gz | tr "A-Z" "a-z"

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

2. 验证tar包的完整性

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

3. 切换到root用户进入到/home/hadoop目录下解压安装安装包到/usr/local/hadoop

执行命令

解压安装命令完成之后会在/usr/local自动生成一个hadoop2.6.0的文件

解压成功最后几行解压太多 刷屏了

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

然后修改权限

mv hadoop-2.6.0/ hadoop/   更改文件名称

chown -R hadoop:hadoop ./hadoop   修改权限

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 

查看hadoop是否安装成功:进入到/usr/local/hadoop/bin  执行./hadoop version

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 

例子测试进入hadoop:  cd /usr/local/hadoop

           创建input :    mkdir ./input

  cp ./etc/hadoop/*.xml  ./input

 把配置文件复制到input目录下

再进入:vi    /etc/hosts

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z]+'  

这是一行  不要分开写 直接粘贴复制  

进入:cd output

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

cat part-r-00000

使用source ~/.bashrc 命令使配置生效输入之后没有反应 说明成功了

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

hadoop2.5.0  CDH  伪分布安装配置文件

配置hadoop
               cd /usr/local/hadoop/etc/hadoop

第一个:hadoop-env.sh
vim hadoop-env.sh
#第27行
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk.x86_64

第二个:core-site.xml
<!-- 制定HDFS的老大(NameNode)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://主机名:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
                </property>


第三个:hdfs-site.xml
<configuration>
                <property>
                        <name>dfs.replication</name>
                        <value>1</value>
                </property>
                <property>
                        <name>dfs.permissions.enabled</name>
                        <value>false</value>
                </property>
                <property>
                        <name>dfs.namenode.secondary.http-address</name>
                        <value>admin:50090</value>
                </property>
                <property>
                         <name>dfs.namenode.http-address</name>
                         <value>admin:50070</value>
                </property>
                <property>
                         <name>dfs.datanode.data.dir</name>
                         <value>file:/usr/local/hadoop/tmp/dfs/data</value>
                </property>
                <property>
                        <name>dfs.namenode.name.dir</name>
                        <value>file:/usr/local/hadoop/tmp/dfs/nn/name</value>
                </property>
                <property>
                        <name>dfs.namenode.edits.dir</name>
                        <value>file:/usr/local/hadoop/tmp/dfs/nn/edits</value>
                </property>
                <property>
                        <name>dfs.namenode.checkpoint.dir</name>
                        <value>file:/usr/local/hadoop/tmp/dfs/snn/name</value>
                </property>
                <property>
                        <name>dfs.namenode.checkpoint.edits.dir</name>
                        <value>file:/usr/local/hadoop/tmp/dfs/snn/edits</value>
                </property>

</configuration>


第四个:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
                <property>
                        <name>mapreduce.jobhistory.webapp.address</name>
                        <value>hadoop-yarn.admin:19888</value>
                </property>
                <property>
                         <name>mapreduce.jobhistory.address</name>
                         <value>hadoop-yarn.admin:10020</value>
                </property>
                <property>
                          <name>mapreduce.job.ubertask.enable</name>
                          <value>true</value>
                </property>
</configuration>

第五个:yarn-site.xml
<configuration>

<!-- Site specific YARN configuration properties -->
                <property>
                        <name>yarn.resourcemanager.hostname</name>
                        <value>admin</value>
                </property>
                <!-- reducer获取数据的方式 -->
                <property>
                        <name>yarn.nodemanager.aux-services</name>
                        <value>mapreduce_shuffle</value>
                </property>
               <!-- 日志聚合功能 -->
                 <property>
                        <name>yarn.log-aggregation-enable</name>
                        <value>true</value>
                </property>
               <!-- 日志保存时长 -->
                 <property>
                        <name>yarn.log-aggregation.retain-seconds</name>
                        <value>604800</value>
                </property>
</configuration>

   第六个  yarn-env.sh
               export HADOOP_YARN_PID_DIR=/usr/local/hadoop/tmp
   第七个  hadoop-env.sh

               export HADOOP_PID_DIR=/usr/local/hadoop/tmp

再进入:vim /etc/profile

(把下面三条复制上)

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk.x86_64

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

再执行:source /etc/profile

3.3格式化namenode(是对namenode进行初始化

hdfs namenode  -format  (hadoop namenode  -format)

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 

 

3.4启动hadoop

先启动HDFS

sbin/start-dfs.sh

再启动YARN

sbin/start-yarn.sh

执行:start-all.sh(新版的是start-dfs.sh  start-yarn.sh 关闭是 :stop-all.sh)

最后执行:jps

3.5验证是否启动成功

使用jps命令验证

27408 NameNode

28218 Jps

27643 SecondaryNameNode

28066 NodeManager

27803 ResourceManager

27512 DataNode

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

http://192.168.8.118:50070 (HDFS管理界面

http://192.168.8.118:8088 (MR管理界面

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 


统计文件中的单词个数。。

hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount hdfs://aa:9000/ff hdfs://aa:9000/tt

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

安装nginx

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

安装好以后在任意路径启动

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

nginx自动安装在/etc/

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

记得在C盘下写映射  之后在网页直接输主机名加 / 

伪分布式安装jdk1.7+hadoop2.5.0cdh+flume+nginx

 

安装flume

 

直接进行解压就OK

后续接着写