centos安装hadoop-spark集群
hadoop集群安装见:https://blog.****.net/qq_25948717/article/details/80299499
先去下载spark:https://mirrors.cnnic.cn/apache/,和scala:https://www.scala-lang.org/download/,因为 spark使用scala开发,要先安装scala。
解压到/home/ yexin/ tar -zxvf filename 然后重命名
在/etc/profile里面配置,然后source /etc/profile
输入pyspark 既可以启动
但是默认使用自带的老版本的python,可修改
vim spark/bin/pyspark
修改成自己的python3,安装python3见https://blog.****.net/qq_25948717/article/details/80310458
再输入pyspark既可以重新启动,发现在使用python3
将spark整合到Hadoop集群里面:
cd /root/spark/conf
vim spark-env.sh
添加:
export JAVA_HOME=/usr/local/jdk1.8.0_172 #这里路径为自己解压的JDK的路径
export CLASSPATH=${JAVA_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
# Hadoop Environment Variables
export HADOOP_HOME=/root/hadoop-2.8.4
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
#scala
export SCALA_HOME=/root/scala
export PATH=$PATH:$SCALA_HOME/bin
#spark
export SPARK_HOME=/root/spark
export PATH=$PATH:$SPARK_HOME/bin
export SPARK_MASTER_IP=node63
export SPARK_WORKER_MEMORY=2g
vim slaves:
然后将安装好的文件拷贝到其他节点:scp spark scala [email protected]:/root/
也将/etc/profile 拷贝到其他目录下。
测试Spark集群:
1.启动zookeeper集群:
启动hadoop:
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
输入:spark-shell
打开网址输入:http://node63:4040可以看到SparkJobs