在Linux的PyCharm下配置Spark环境
在系统中安装好Spark,为了方便程序的编写,调试和结果的查看,在Pycharm中配置Spark环境
1. 创建新的文件夹
2. 安装好各种依赖包
File ⟶ Settings ⟶ Project ⟶ Project Interpreter
主要是pyspark和py4j
3. 编辑Configuration
点击右上角编辑Configuration
Configuration ⟶ Environment Variables 增加Spark和Python路径
SPARK_HOME的路径是Spark安装的位置,如我的安装位置:/home/ho/Downloads/spark-2.4.3-bin-hadoop2.7
PYTHON_HOME的路径是Spark中Python的位置,如我的位置:/home/ho/Downloads/spark-2.4.3-bin-hadoop2.7/python
将Python Interpreter更改为安装好依赖包的路径
4. 测试
利用随意一个Spark程序测试配置是否成功
就这样配置就完成了。在配置过程在,依赖包安装很多时候安装出错,多试几次就好了,或者可以更换镜像。