windows10——64位搭建大数据Spark环境(单机版的)
Spark版本:2.3.1 (最新版)
hadoop版本:2.7
jdk版本:1.8.0
scala版本:官网最新版
第一步:首先安装jdk
一定要注意安装路径,我是安装在C盘,因为spark 环境搭建路径不能出现空格。
设置环境变量:
首先是JAVA_HOME 路径:C:\Java\jdk1.8.0_121
然后是CLASSPATH 路径: .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;
测试:CMD 输入java & javac 不报错,就说明你安装好啦!
接下来安装hadoop啦!
我的解压路径:
如法炮制:配置环境变量,和java一样有两个路径。
然后要在你的bin路径下放一个.exe程序,HADOOP_HOME的bin目录下winutils.exe,
下载地址https://github.com/srccodes/hadoop-common-2.2.0-bin(选择自己对应的版本,高版本的支持低版本)
还没完呢!
cdm 进入hadoop/bin 目录下
需要修改 winutils.exe 访问权限
hadoop fs -chmod -R 777 /tmp
继续。。。。。。找到这个文件夹修改文件
填写你的JAVA地址并保存:
接下来才是见证奇迹的时刻!搭建Spark
解压在这里,注意和前面一样,路径里面不能有空格出现。
配置环境变量:
直接把spark/bin路径丢进系统变量里面就好了,还有上面的JAVA、hadoop、scala、spark的路径都要丢进系统变量里面。
好啦!见证奇迹吧!
spark 是搭建在scala语言上的,scala又是搭建在JAVA 上的,。
spark 刚启动有很多的INFO报警文件,这个可以设置一下,就可以像我这样了。地址:spark文件conf/log4j.properties,修改:
log4j.rootcategory=INFO.console 把info改成WARN
再次打开shell,就会看到输出少了很多很多。。。四不四很厉害!
还有一个Pyspark
搭建方法和上面的类似,路径设置好后,cdm 输入pyspark 就可以交互啦!
谢谢大家的阅读!