win7 64位,jupyter+spark核的安装
upyter+spark的安装,网上比较多的都是LINUX环境下的教程,在win环境的几乎没有。刚刚本人在win7的电脑上安装成功了,先看看效果如何:
二话不说,我们马上开始
- python
下载的anaconda4.2.0的64位版本,py版本是3.5
下载地址:https://repo.continuum.io/archive/Anaconda3-4.2.0-Windows-x86_64.exe,直接按照下来就可以了,annconda会自动设置环境变量,所以安装好马上就可以用。
安装完成以后,cmd后,敲python,显示安装的python版本
-
JAVA
java版本:1.8.0_131
java的安装不在赘述,网上很多,特别说明下,安装过程中也遇到了一个坑。
坑一:开始的时候装在C盘的默认目录下,但是不知道为啥spark2.1.1启动的时候总是报一个’C:\Program’ 不是内部或外部命令,也不是可运行的程序或批处理文件’的错误,后来发现是因为安装的Program Files目录有空格的原因。这个问题在spark2.1.0版本没有出现,不知道原因。后来干脆直接装在C的根目录下。
记得设置环境变量,网上教程很多,最后CMD下,java -version能跳出java的version,就算成功了。 -
spark
spark版本:spark-2.1.1-bin-hadoop2.6.tgz
可以直接在官网下载
选择了这个版本,安装的话,可以直接照着网上教程安装。我是随意放在了D盘的根目录下。然后设置下环境变量。
SPARK_HOME,和PATH。也直接照着网上教程装即可。在这一步,我遇到了第二个坑。
坑二:因为设置spark_home的时候,我习惯性的在变量值后面加了一个分号,就是这个分号,导致后面spark的核心怎么都启动不了,后来才发现,原来启动spark核的时候,路径是用环境变量里的值进行拼接的,所以导致怎么都启动不了。这个分号,无论如何不能随便加。
SPARK_HOME:D:\spark211 -
hadoop
hadoop版本:hadoop2.6
因为懒,这个版本有编译好的版本可以下载,就直接下载的windows 64位已编译的版本。
可以直接下载这个版本:http://static.barik.net/software/hadoop-2.6.0-dist/hadoop-2.6.0.tar.gz
这里也需要设置下环境变量。也可以直接按照网上的教程来。 -
spylon-kernel
这个玩意,就是能在jupyter下使用spark核的关键了。之前也试过toree,但是怎么弄都不成功,后来在coding的建议下,使用这个spylon-kernel就成功了。
安装也特别简单,cmd后,只要敲这2条命令就可以了:
pip install spylon-kernel
python -m spylon_kernel install
这个时候,CMD下,敲jupyter kernelspec list,应该就能看到,有2个核心
这个spylon-kernel要求:
Apache Spark 2.1.1 compiled for Scala 2.11
Jupyter Notebook
Python 3.5+
所以这3个条件应该是必须满足的。
这个时候,基本就全部搞定了,可以在jupyter notebook中,*的使用spark了,是不是很简单!