您的位置: 首页 > 文章 > Python--大数据03

Python--大数据03

分类: 文章 • 2025-04-08 12:35:21

一、修改主机名和映射

1.切换root用户,修改需要权限

Python--大数据03

2.修改主机名 vi /etc/hostname

Python--大数据03

保存退出

3.修改主机映射 vi /etc/hosts

Python--大数据03

保存退出

4.重启

Python--大数据03

5.修改window下的映射

Python--大数据03

在桌面打开这个文件(记事本),输入以下内容,记住一定输入你配置的静态ip,保存关闭

Python--大数据03

将桌面的文件拖到原来的文件夹中

Python--大数据03

选择替换

Python--大数据03

以管理员继续

Python--大数据03

完成

二、修改配置文件

1.重新连上linux

2.进入配置目录

Python--大数据03

3.配置core-site.xml

在configuration添加以下内容然后保存退出

<property>

<name>fs.defaultFS</name>

<value>hdfs://python8:9000</value>

</property>

Python--大数据03

Python--大数据03

4.配置hdfs-site.xml

在configuration添加以下内容然后保存退出

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:///home/hadoop/opt/tmp/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:///home/hadoop/opt/tmp/dfs/data</value>

</property>

<property>

<name>dfs.namenode.http-address</name>

<value>python8:50070</value>

</property>

Python--大数据03

Python--大数据03

5.配置mapred-site.xml

查看当前目录会发现没有mapred-site.xml文件,只有一个mapred-site-xml.template的文件,我们复制一份命名为mapred-site.xml

命令:cp mapred-site.xml.template mapred-site.xml

Python--大数据03

在configuration添加以下内容然后保存

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

6.配置yarn-site.xml

然后在configuration添加以下内容然后保存提出

<property>

<name>yarn.resourcemanager.hostname</name>

<value>python8</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

Python--大数据03

Python--大数据03

7.修改slaves

配置datanode的主机名称为python8

Python--大数据03

Python--大数据03

三、关闭防火墙和selinux

切换到root用户

关闭防火墙

临时关闭:systemctl stop firewlld

永久关闭:systemctl disable firewalld

查看状态:systemctl ststus firewalld

关闭selinux

临时关闭 seteforce 0

永久关闭 vi /etc/selinux/config

修改SELINUX=disabled

getenforce:查看状态

切换到root用户关闭防火墙

Python--大数据03

关闭selinux

Python--大数据03

重启机器reboot

Python--大数据03

重新连接登录hadoop

Python--大数据03

查看防火墙和selinux状态

Python--大数据03

四、执行hdfs文件系统格式化:hdfs namenode -format

Python--大数据03

Python--大数据03

五、设置ssh无密码登录

输入:ssh-****** -t rsa 一直按回车

Python--大数据03

ssh-copy-id 你想登录到的计算机名输入hadoop密码

Python--大数据03

六启动服务 start-dfs.sh(如果没有配置ssh无密码登录,那么这里会一直输入密码)

Python--大数据03

在这里我输入时遇到了报错start-dfs.sh:未找到命令

解决办法:

start-dfs的文件.sh存在于${HADOOP-HOME}/bin?如果没有，请尝试运行通用sbin/start-dfs.sh。

输入命令:sbin/start-dfs.sh 即可

查看启动的服务jps

Python--大数据03

start-yarn.sh及jps

Python--大数据03

七浏览服务器访问,输入python8:50070

Python--大数据03

成功显示

八、文件上传

1.创建一个目录 hadoop fs -mkdir -p/user/hadoop

Python--大数据03

Python--大数据03

2.文件上传

新建一个文件

写入内容

保存退出

Python--大数据03

上传

Python--大数据03

查看

Python--大数据03

Python--大数据03

七、Anaconda的安装

1.上传

Python--大数据03

2.安装前需要安装bzip2

(1)需要root用户,切换用户

(2)yum -y install bzip2安装bzip2

命令:yum -y install bzip2

Python--大数据03

(3)退出root用户

Python--大数据03

3.安装Anaconda bash Anaconda3-5.0.1-Linux-x86_64.sh

(1)

Python--大数据03

(2)

Python--大数据03

(3)

Python--大数据03

(4)

Python--大数据03

(5)等待

Python--大数据03

(6)完成

Python--大数据03

4.更新变量环境

Python--大数据03

5.查看jupter地址jupyter-notebook --ip python8

进入网址后按ctrl+c退出

复制网址

Python--大数据03

注意:此处需要注意当你重启虚拟机分别启动所需要的6项服务后,然后输入jupyter-notebook --ip命令后会显示不出网址报错

是因为权限的问题,

Python--大数据03

解决办法:重启虚拟机直接用hadoop登录切勿用root登录,虽然我也不知道是什么权限问题但是报错没有问题解决了

Python--大数据03

6.进浏览器,输入你复制的网址

Python--大数据03

八、 sopark的安装

1.上传

Python--大数据03

2.解压缩到opt目录

命令 tar -xzf spark-2.2.1-bin-hadoop2.7tgz -C opt

Python--大数据03

3.配置环境变量

加入:export SPARK_HOME=/home/hadoop/opt/spark-2.2.1-bin-hadoop2.7

export PATH=$PATH:SPARK_HOME/bin:$SPARK_HOME/sbin

Python--大数据03

4.更新变量环境

Python--大数据03

5.测试是否成功

Python--大数据03