设置findspark.init()永久
问题描述:
我在这个路径上安装了Apache Spark在这个路径/home/mymachine/spark-2.1.0-bin-hadoop2.7
所以我必须去python目录下,以便能够使用spark或者我可以在python目录下使用它从库调用findspark,但看来我总是初始化这个库是这样的:设置findspark.init()永久
import findspark
findspark.init("/home/mymachine/spark-2.1.0-bin-hadoop2.7")
每次我想用findspark
,这是不是很有效。无论如何永久启动这个库?
在here它提到需要在.bash_profile上设置变量SPARK_HOME
,我做到了,但没有运气。
答
添加以下变量的.bashrc文件
export SPARK_HOME=/path/2/spark/folder
export PATH=$SPARK_HOME/bin:$PATH
然后source .bashrc
如果你想运行与jupyter笔记本pyspark,添加这些变量的.bashrc
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
再次
source .bashrc
现在,如果您从shell运行pyspark
,它将启动jupyter笔记本服务器,并且可以在python内核上使用pyspark。
嗨,我在OSX上有类似的问题。意思是,我将SPARK_HOME添加到了我的.bash_profile文件中,但没有运气。我不得不'源'.bash_profile'解决。 –
Hi @ bob-haffner你用'''source .bash_profile'''来解决什么意思? – HelloWorld
嗨HW,当你添加一个env var(例如SPARK_HOME)到.bash_profile时,你需要关闭并重新打开你的shell或者执行'source .bash_profile',这样你才能使用它。那有意义吗? –