Hadoop伪分布式的搭建
安裝jdk
vi /etc/profile
export JAVA_HOME=
PATH=$PATH:$JAVA_HOME/bin
设置免**登录(本机)
ssh-****** -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
hadoop.tar.gz 到服务器,解压到指定的文件夹
vi /etc/profile
JAVA_HOME=/opt/module/jdk1.7.0_75
export HADOOP_PREFIX=/opt/module/hadoop-2.6.5
PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin:$JAVA_HOME/bin:$HADOOP_PREFIX/sbin:$HADOOP_PREFIX/bin
配置hadoop的环境变量 配置sbin和bin
hadoop-env.sh设置
export JAVA_HOME=/opt/module/jdk1.7.0_75
core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://note01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/sxt/hadoop/local</value>
</property>
设置linux的hosts的目录 192.168.18.100 note01 配置映射关系
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>note01:50090</value>
</property>
默认副本数是3,这里伪分布式设置为1即可
vi slaves (datanode节点)
将原来的localhost修改为note01
格式化 namenode
hdfs namenode -format
启动
start-dfs.sh
查看服务进程启动了么? jps
外部访问,确认防火墙关闭
创建文件夹
hdfs dfs -mkdir /user
查看文件夹下的目录
hdfs dfs -ls /user
上传文件
hdfs dfs - - put fileName[ 本地文件名 ] PATH 【hdfs 的相对文件路径】
显示文件夹的大小
hdfs dfs -du [-s][-h]URI[URI ...]
删除
hdfs dfs - rm - r
复制
hdfs dfs -cp [-f][-p|-p[topax]]URI[URI...]<dest>复制文件(夹),可以覆盖,可以保留原有权限信息
伪分布式最终上传路径
自定义block的大小
hdfs dfs 回车 这里英文是自定义文件的大小
生成1w行的文件
for i in `seq 100000`;do echo "hello hello hadoop $i" >> test.txt;done
上传文件
设置偏移量为1M 1024*1024=1048576
上传时
文件被分割成三块
具体进入官网点击learn
查看