Spark数据集或数据框聚合

Spark数据集或数据框聚合

问题描述:

我们有一个Spark版本2.0的MapR群集 我们试图测量当前在TEZ引擎上运行的Hive查询的性能差异,然后在Spark-sql上运行它,只需编写在.hql文件中查询sql查询,然后通过shell文件调用它。Spark数据集或数据框聚合

查询中包含很多Join,这些Join肯定会创建多个阶段,并且在这种情况下将会发生混洗,那么最合适的选择是什么?

这是真的,数据集,星火比Dataframes较慢像GROUPBY,最大值,最小值,count..etc进行聚合..

所以什么都区Dataframes表现比数据集更好,反之亦然.. ?

在Spark 2.0中,数据集[Row]是Dataframe的别名,因此不应该存在任何性能问题。

请参阅:

+0

这是否意味着星火数据集和数据帧都在各个方面的表现非常相似..? – AJm

+0

@Aijaz是数据集= Dataframe +类型安全 –