windows7下安装pyspark步骤及可能遇到的问题。
windows7下安装pyspark步骤及可能遇到的问题
本文安装的各软件版本:jdk:1.8;spark:2.3.1;Hadoop:2.7.3
具体安装步骤
一、安装JDK
jdk官网链接
或者下载链接jdk1.8
运行spark时,需要的JDK的安装目录不能带空格,要不然会报错。之前我的jdk安装目录是D:\Program Files\java**,运行spark运行报错“spark 不是内部命令”。
- 电脑第一次安装JDK,点击安装文件,选择需要安装的目录,点击下一步即可。
- 配置环境变量:
(1) 点击计算机-属性-高级系统设置-环境变量。在系统变量下新建,变量名JAVA_HOME,变量值,jdk路径(我的是D:\InstallFiles\JDK),保存。
(2) 新建,变量名CLASSPATH,变量值,.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
。
(3) 打开Path变量,在变量值最前加入%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin
;
(4) 执行cmd,输入javac
、java -version
查看是否安装成功。 - 如果电脑需要卸载JDK重新安装。先进入控制面板,卸载JDK,然后打开环境变量
path
查看是否存在类似C:\Program Files (x86)\Common Files\Oracle\Java\javapath
这句,目前不清楚这个目录是干嘛的,进入这个目录,删除java相关的三个.exe 文件(不删除,重新安装JDK后,JDK还是之前的目录)。然后重新安装,重新安装后,执行java-verbose
,查看命令最后一行,是否是新安装的目录。
二、安装anaconda及pycharm
anaconda下载官网
- 下载需要的anaconda版本,我安装的是3.6的。下载后执行安装即可。
- 环境配置可以在第一步选择配置,也可以自己手动配置。
- pycharm安装这里不讲,网上很多。下载安装即可。
三、安装scala
- 下载完成后,点击执行安装即可, 环境变量自动配置。scala安装目录不可以存在空格
- 执行cmd,执行
scala
。命令成功即安装成功
四、安装Hadoop
hadoop下载官网
或者下载免安装
windows下安装hadoop还需要一个插件下载
- 我这里下载的是第二个免安装文件,下载后解压,然后放到需要安装的目录下。
- 插件压缩包解压, 将其中的文件复制替换掉hadoop目录下对应的文件。
- 进入环境变量配置,新建HADOOP_HOME=‘安装的目录’,打开path,添加
%HADOOP_HOME%\bin;
五、安装spark
- 我这里下载的是第二个免安装文件,下载后解压,然后放到需要安装的目录下。
- 进入环境变量配置,新建SPARK_HOME=‘安装的目录’,打开path,添加
%SPARK_HOME%\bin;
- 执行cmd,执行命令
spark -shell
出现如下表示安装成功。 - 将spark目录下的python文件复制到anaconda下的lib\site-packages
- 进入pycharm即可使用pyspark