Ubuntu下配置pysaprk并将其导入Python

一、所需的东西

(1)java jdk(注意要是linux版的,并注意位数)

(2)spark

(3)anaconda(推荐,带有一些基本库)这个不是必须,linux里面python是自带的

二、details

(1)安装java

下载网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Ubuntu下配置pysaprk并将其导入Python

 下载那个tar.gz文件,拖到ubuntu(个人用的桌面版的,可以直接拖,如果不能请借助一些文件传输工具),进入终端

tar -zxvf jdk-8u181-linux-x64.tar.gz  解压

然后配置环境变量   输入  sudo gedit /etc/profile ,光标移动到最尾端,输入(注意根据自己的位置改一下)

export JAVA_HOME=/home/cjp/java/jdk1.8.0_181 
export JRE_HOME=${JAVA_HOME}/jre    
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib    
export PATH=${JAVA_HOME}/bin:$PATH 

ctrl+s 保存,ctrl+q退出

使用 source /etc/profile  更新一下,就可以使用  java -version 验证是否ok了,成功了的话,会显示下面的

Ubuntu下配置pysaprk并将其导入Python

(2)安装spark

下载地址:http://spark.apache.org/downloads.html

操作同安装java一样,解压配置环境变量(需要按照自己的改一下)

export SPARK_HOME=/home/cjp/spark/spark-2.2.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH  

然后 source /etc/profile  就可以输入pyspark验证了,成功了如下图

Ubuntu下配置pysaprk并将其导入Python


 这个时候其实还有一个问题,你输入pysaprk没问题,输入python没问题,但是如果你想要直接在python里面调用pysaprk,就会出现:

ImportError: No module named pyspark

这就出现问题了,这就需要第三步,把pysaprk导入到python中,如下

(3)导入pyspark到python

因为我使用的是anaconda3,所有自己设置了一下它的环境变量,如下:

sudo gedit /etc/profile

在末尾添加  export PATH=/home/cjp/anaconda3/bin:$PATH   ,这样的话就可以使用anaconda中的python了,如下

Ubuntu下配置pysaprk并将其导入Python

如果不需要anaconda,请略过上面一步

然后继续配置    vim ~/.bashrc     如果不熟悉vim操作,请参考:http://www.bubuko.com/infodetail-1120285.html

在尾部添加下面的内容,红色部分请根据实际情况修改

export SPARK_HOME=/home/cjp/spark/spark-2.2.0-bin-hadoop2.7
export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH
PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH 
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH

同样 source ~/.bashrc 一下,这样就可以像下面这么操作了

Ubuntu下配置pysaprk并将其导入Python

 

如果有问题,请留言,看到就会回复