Ubuntu下配置pysaprk并将其导入Python

一、所需的东西

（1）java jdk（注意要是linux版的，并注意位数）

（2）spark

（3）anaconda（推荐，带有一些基本库）这个不是必须，linux里面python是自带的

二、details

（1）安装java

下载网址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Ubuntu下配置pysaprk并将其导入Python

下载那个tar.gz文件，拖到ubuntu（个人用的桌面版的，可以直接拖，如果不能请借助一些文件传输工具），进入终端

tar -zxvf jdk-8u181-linux-x64.tar.gz 解压

然后配置环境变量输入 sudo gedit /etc/profile ,光标移动到最尾端，输入（注意根据自己的位置改一下）

export JAVA_HOME=/home/cjp/java/jdk1.8.0_181
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

ctrl+s 保存，ctrl+q退出

使用 source /etc/profile 更新一下，就可以使用 java -version 验证是否ok了，成功了的话，会显示下面的

Ubuntu下配置pysaprk并将其导入Python

（2）安装spark

下载地址：http://spark.apache.org/downloads.html

操作同安装java一样，解压配置环境变量（需要按照自己的改一下）

export SPARK_HOME=/home/cjp/spark/spark-2.2.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH

然后 source /etc/profile 就可以输入pyspark验证了，成功了如下图

Ubuntu下配置pysaprk并将其导入Python

这个时候其实还有一个问题，你输入pysaprk没问题，输入python没问题，但是如果你想要直接在python里面调用pysaprk，就会出现：

ImportError: No module named pyspark

这就出现问题了，这就需要第三步，把pysaprk导入到python中，如下

（3）导入pyspark到python

因为我使用的是anaconda3，所有自己设置了一下它的环境变量，如下：

sudo gedit /etc/profile

在末尾添加 export PATH=/home/cjp/anaconda3/bin:$PATH ，这样的话就可以使用anaconda中的python了，如下

Ubuntu下配置pysaprk并将其导入Python

如果不需要anaconda，请略过上面一步

然后继续配置 vim ~/.bashrc 如果不熟悉vim操作，请参考：http://www.bubuko.com/infodetail-1120285.html

在尾部添加下面的内容，红色部分请根据实际情况修改

export SPARK_HOME=/home/cjp/spark/spark-2.2.0-bin-hadoop2.7
export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH
PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH

同样 source ~/.bashrc 一下，这样就可以像下面这么操作了

Ubuntu下配置pysaprk并将其导入Python

如果有问题，请留言，看到就会回复

Ubuntu下配置pysaprk并将其导入Python

ImportError: No module named pyspark

相关推荐