Spark数据集解压缩函数
问题描述:
我有Dataset[(A,B)]
。我正在寻找类似unzip(Set[A,B]) => (Set[A], Set[B])
的东西。我有什么选择?我在数据集API中找不到任何东西。我是否需要下载RDD并重新启动?Spark数据集解压缩函数
这是由一个连接引起的,是连接'廉价'足以做两次连接,只是反向?由于两套已经存在,似乎过度了。
答
一个解决方案,本该应该是显而易见的,我猜,只是做了两个步骤