Spark数据集或数据框聚合

问题描述：

我们有一个Spark版本2.0的MapR群集我们试图测量当前在TEZ引擎上运行的Hive查询的性能差异，然后在Spark-sql上运行它，只需编写在.hql文件中查询sql查询，然后通过shell文件调用它。Spark数据集或数据框聚合

查询中包含很多Join，这些Join肯定会创建多个阶段，并且在这种情况下将会发生混洗，那么最合适的选择是什么？

这是真的，数据集，星火比Dataframes较慢像GROUPBY，最大值，最小值，count..etc进行聚合..

所以什么都区Dataframes表现比数据集更好，反之亦然.. ？

答

在Spark 2.0中，数据集[Row]是Dataframe的别名，因此不应该存在任何性能问题。

请参阅：

这是否意味着星火数据集和数据帧都在各个方面的表现非常相似..？ – AJm

@Aijaz是数据集= Dataframe +类型安全 –