Ubuntu下配置pysaprk并将其导入Python
一、所需的东西
(1)java jdk(注意要是linux版的,并注意位数)
(2)spark
(3)anaconda(推荐,带有一些基本库)这个不是必须,linux里面python是自带的
二、details
(1)安装java
下载网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
下载那个tar.gz文件,拖到ubuntu(个人用的桌面版的,可以直接拖,如果不能请借助一些文件传输工具),进入终端
tar -zxvf jdk-8u181-linux-x64.tar.gz 解压
然后配置环境变量 输入 sudo gedit /etc/profile ,光标移动到最尾端,输入(注意根据自己的位置改一下)
export JAVA_HOME=/home/cjp/java/jdk1.8.0_181
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
ctrl+s 保存,ctrl+q退出
使用 source /etc/profile 更新一下,就可以使用 java -version 验证是否ok了,成功了的话,会显示下面的
(2)安装spark
下载地址:http://spark.apache.org/downloads.html
操作同安装java一样,解压配置环境变量(需要按照自己的改一下)
export SPARK_HOME=/home/cjp/spark/spark-2.2.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH
然后 source /etc/profile 就可以输入pyspark验证了,成功了如下图
这个时候其实还有一个问题,你输入pysaprk没问题,输入python没问题,但是如果你想要直接在python里面调用pysaprk,就会出现:
ImportError: No module named pyspark
这就出现问题了,这就需要第三步,把pysaprk导入到python中,如下
(3)导入pyspark到python
因为我使用的是anaconda3,所有自己设置了一下它的环境变量,如下:
sudo gedit /etc/profile
在末尾添加 export PATH=/home/cjp/anaconda3/bin:$PATH ,这样的话就可以使用anaconda中的python了,如下
如果不需要anaconda,请略过上面一步
然后继续配置 vim ~/.bashrc 如果不熟悉vim操作,请参考:http://www.bubuko.com/infodetail-1120285.html
在尾部添加下面的内容,红色部分请根据实际情况修改
export SPARK_HOME=/home/cjp/spark/spark-2.2.0-bin-hadoop2.7
export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH
PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
同样 source ~/.bashrc 一下,这样就可以像下面这么操作了
如果有问题,请留言,看到就会回复