在Linux的PyCharm下配置Spark环境

在系统中安装好Spark,为了方便程序的编写,调试和结果的查看,在Pycharm中配置Spark环境

1. 创建新的文件夹

在Linux的PyCharm下配置Spark环境

2. 安装好各种依赖包

File ⟶ Settings ⟶ Project ⟶ Project Interpreter
主要是pyspark和py4j
在Linux的PyCharm下配置Spark环境

3. 编辑Configuration

点击右上角编辑Configuration
Configuration ⟶ Environment Variables 增加Spark和Python路径
SPARK_HOME的路径是Spark安装的位置,如我的安装位置:/home/ho/Downloads/spark-2.4.3-bin-hadoop2.7
PYTHON_HOME的路径是Spark中Python的位置,如我的位置:/home/ho/Downloads/spark-2.4.3-bin-hadoop2.7/python
在Linux的PyCharm下配置Spark环境将Python Interpreter更改为安装好依赖包的路径
在Linux的PyCharm下配置Spark环境

4. 测试

利用随意一个Spark程序测试配置是否成功
在Linux的PyCharm下配置Spark环境
就这样配置就完成了。在配置过程在,依赖包安装很多时候安装出错,多试几次就好了,或者可以更换镜像。