Spark数据集或数据框聚合
问题描述:
我们有一个Spark版本2.0的MapR群集 我们试图测量当前在TEZ引擎上运行的Hive查询的性能差异,然后在Spark-sql上运行它,只需编写在.hql文件中查询sql查询,然后通过shell文件调用它。Spark数据集或数据框聚合
查询中包含很多Join,这些Join肯定会创建多个阶段,并且在这种情况下将会发生混洗,那么最合适的选择是什么?
这是真的,数据集,星火比Dataframes较慢像GROUPBY,最大值,最小值,count..etc进行聚合..
所以什么都区Dataframes表现比数据集更好,反之亦然.. ?
答
在Spark 2.0中,数据集[Row]是Dataframe的别名,因此不应该存在任何性能问题。
请参阅:
这是否意味着星火数据集和数据帧都在各个方面的表现非常相似..? – AJm
@Aijaz是数据集= Dataframe +类型安全 –