win7 64位,jupyter+spark核的安装

upyter+spark的安装,网上比较多的都是LINUX环境下的教程,在win环境的几乎没有。刚刚本人在win7的电脑上安装成功了,先看看效果如何:

win7 64位,jupyter+spark核的安装

二话不说,我们马上开始 
python 
下载的anaconda4.2.0的64位版本,py版本是3.5 
下载地址:https://repo.continuum.io/archive/Anaconda3-4.2.0-Windows-x86_64.exe,直接按照下来就可以了,annconda会自动设置环境变量,所以安装好马上就可以用。 
安装完成以后,cmd后,敲python,显示安装的python版本

win7 64位,jupyter+spark核的安装

  • JAVA
    java版本:1.8.0_131 
    java的安装不在赘述,网上很多,特别说明下,安装过程中也遇到了一个坑。 
    坑一:开始的时候装在C盘的默认目录下,但是不知道为啥spark2.1.1启动的时候总是报一个’C:\Program’ 不是内部或外部命令,也不是可运行的程序或批处理文件’的错误,后来发现是因为安装的Program Files目录有空格的原因。这个问题在spark2.1.0版本没有出现,不知道原因。后来干脆直接装在C的根目录下。 
    记得设置环境变量,网上教程很多,最后CMD下,java -version能跳出java的version,就算成功了。
  • spark
    spark版本:spark-2.1.1-bin-hadoop2.6.tgz 
    可以直接在官网下载 
    选择了这个版本,安装的话,可以直接照着网上教程安装。我是随意放在了D盘的根目录下。然后设置下环境变量。 
    SPARK_HOME,和PATH。也直接照着网上教程装即可。在这一步,我遇到了第二个坑。 
    坑二:因为设置spark_home的时候,我习惯性的在变量值后面加了一个分号,就是这个分号,导致后面spark的核心怎么都启动不了,后来才发现,原来启动spark核的时候,路径是用环境变量里的值进行拼接的,所以导致怎么都启动不了。这个分号,无论如何不能随便加。 
    SPARK_HOME:D:\spark211
  • hadoop
    hadoop版本:hadoop2.6 
    因为懒,这个版本有编译好的版本可以下载,就直接下载的windows 64位已编译的版本。 
    可以直接下载这个版本:http://static.barik.net/software/hadoop-2.6.0-dist/hadoop-2.6.0.tar.gz
    这里也需要设置下环境变量。也可以直接按照网上的教程来。
  • spylon-kernel
    这个玩意,就是能在jupyter下使用spark核的关键了。之前也试过toree,但是怎么弄都不成功,后来在coding的建议下,使用这个spylon-kernel就成功了。 
    安装也特别简单,cmd后,只要敲这2条命令就可以了: 
    pip install spylon-kernel 
    python -m spylon_kernel install

这个时候,CMD下,敲jupyter kernelspec list,应该就能看到,有2个核心

win7 64位,jupyter+spark核的安装

这个spylon-kernel要求: 
Apache Spark 2.1.1 compiled for Scala 2.11 
Jupyter Notebook 
Python 3.5+ 

所以这3个条件应该是必须满足的。
这个时候,基本就全部搞定了,可以在jupyter notebook中,*的使用spark了,是不是很简单!

 

转载:https://zhuanlan.zhihu.com/p/51456295