使用Spark --jars选项向集群提交PySpark作业

问题描述:

我希望在提交PySpark作业时能够指定--jars PySpark提交选项。但是这个选项不被支持。有其他选择吗?使用Spark --jars选项向集群提交PySpark作业

谢谢你提出这个问题,看来你发现了一个错误,我们还没有给出必要的标志;其目的确实是在控制台GUI和gcloud beta dataproc jobs submit pyspark中提供一个--jars选项,我们希望能够在几周内在下一个次要版本中部署修补程序。同时,您可以尝试在主节点和/或您的工作节点上简单地将任何jarfile依赖关系转储到/usr/lib/hadoop/lib/,可能使用initialization actions在集群部署时自动下载这些jar文件,然后在Spark(和Hadoop)作业的类路径会自动生成。