如何加入两个parquet数据集?
问题描述:
我正在从Java中的Spark中的Parquet文件中加载两个DataSet。我需要创建一个新的作为两者的组合。在常规SQL中,我会加入表格,在某些情况下应用一些条件并创建新表格。有没有什么办法可以在Spark(SQL)中实现这一点?我读过RDD可能的情况,但我并不想将数据写回磁盘。如何加入两个parquet数据集?
答
这几乎就像Spark SQL为parquet设计的那样是默认格式。
读拼花文件是一个没有脑子,看起来像:
val fileOne = spark.read.load(...)
val fileTwo = spark.read.load(...)
而且在星火SQL加盟是一个没有脑子,太(并隐藏你是否应对地板的数据集或其他任何东西)。使用join
运算符。
val joined = fileOne.join(fileTwo).where(...)
就这样,保存到数据存储,说作为一个大的(GER)实木复合地板的文件又是一个没有脑子。
joined.write.save(...)
你完成了。恭喜!请致电Spark SQL和Dataset API。
sparkSQL中有典型的join操作,比如'join','union'。 – Pushkr
你想要什么输出只是加入两个数据集或其他任何东西 –