win7 64位，jupyter+spark核的安装

upyter+spark的安装，网上比较多的都是LINUX环境下的教程，在win环境的几乎没有。刚刚本人在win7的电脑上安装成功了，先看看效果如何：

二话不说，我们马上开始
- python
下载的anaconda4.2.0的64位版本，py版本是3.5
下载地址：https://repo.continuum.io/archive/Anaconda3-4.2.0-Windows-x86_64.exe，直接按照下来就可以了，annconda会自动设置环境变量，所以安装好马上就可以用。
安装完成以后，cmd后，敲python,显示安装的python版本

win7 64位，jupyter+spark核的安装

JAVA
java版本：1.8.0_131
java的安装不在赘述，网上很多，特别说明下，安装过程中也遇到了一个坑。
坑一：开始的时候装在C盘的默认目录下，但是不知道为啥spark2.1.1启动的时候总是报一个’C:\Program’ 不是内部或外部命令，也不是可运行的程序或批处理文件’的错误，后来发现是因为安装的Program Files目录有空格的原因。这个问题在spark2.1.0版本没有出现，不知道原因。后来干脆直接装在C的根目录下。
记得设置环境变量，网上教程很多，最后CMD下，java -version能跳出java的version，就算成功了。
spark
spark版本：spark-2.1.1-bin-hadoop2.6.tgz
可以直接在官网下载
选择了这个版本，安装的话，可以直接照着网上教程安装。我是随意放在了D盘的根目录下。然后设置下环境变量。
SPARK_HOME,和PATH。也直接照着网上教程装即可。在这一步，我遇到了第二个坑。
坑二：因为设置spark_home的时候，我习惯性的在变量值后面加了一个分号，就是这个分号，导致后面spark的核心怎么都启动不了，后来才发现，原来启动spark核的时候，路径是用环境变量里的值进行拼接的，所以导致怎么都启动不了。这个分号，无论如何不能随便加。
SPARK_HOME：D:\spark211
hadoop
hadoop版本：hadoop2.6
因为懒，这个版本有编译好的版本可以下载，就直接下载的windows 64位已编译的版本。
可以直接下载这个版本：http://static.barik.net/software/hadoop-2.6.0-dist/hadoop-2.6.0.tar.gz
这里也需要设置下环境变量。也可以直接按照网上的教程来。
spylon-kernel
这个玩意，就是能在jupyter下使用spark核的关键了。之前也试过toree，但是怎么弄都不成功，后来在coding的建议下，使用这个spylon-kernel就成功了。
安装也特别简单，cmd后，只要敲这2条命令就可以了：
pip install spylon-kernel
python -m spylon_kernel install

这个时候，CMD下，敲jupyter kernelspec list，应该就能看到，有2个核心

win7 64位，jupyter+spark核的安装

这个spylon-kernel要求：
Apache Spark 2.1.1 compiled for Scala 2.11
Jupyter Notebook
Python 3.5+
所以这3个条件应该是必须满足的。
这个时候，基本就全部搞定了，可以在jupyter notebook中，*的使用spark了，是不是很简单！

转载：https://zhuanlan.zhihu.com/p/51456295

win7 64位，jupyter+spark核的安装

相关推荐