pyspark在所有执行者之间均匀分配负载
问题描述:
我有一个5节点cluster.I使用pyspark将一个100k csv文件加载到数据帧并执行一些etl操作并将输出写入parquet文件。 当我加载数据框时,如何将数据集统一划分到每个执行器处理20k记录的所有执行者OS中。pyspark在所有执行者之间均匀分配负载
答
如果可能,请确保将输入数据拆分为更小的文件。 这样每个执行者将读取和处理单个文件。
在,你不能修改输入文件的情况下,你可以打电话df.repartition(5)
,但请记住,这将导致昂贵的整理操作
你可以用'重新分区(5)'。 – philantrovert