Spark Sql 小文件问题

参考：
https://github.com/Intel-bigdata/spark-adaptive
http://spark.apache.org/docs/latest/configuration.html

使用Spark Sql APIs 处理数据容易产生生成大量小文件，小文件问题也是在分布式计算中常见的问题。一般有三种方法来处理这类问题：

可以在spark-submit 提交任务时通过 --conf 来指定

spark sql自适应框架可以通过设置spark shuffle partition的上限和下限对不同作业不同阶段的 reduce 个数进行动态调整；同时也可以通过参数对 joins 和数据倾斜问题进行优化

Spark Sql Adaptive Execution参数：
控制并发度
Spark Sql 小文件问题

Joins 优化策略：
Spark Sql 小文件问题

数据倾斜：
Spark Sql 小文件问题