配置单元表导出到群集+ distcp内的其他hadoop群集或配置单元导出?

问题描述:

我想蜂巢导出表从一个Hadoop集群A到B.另一配置单元表导出到群集+ distcp内的其他hadoop群集或配置单元导出?

我有2种方法:

第一:

  • 出口至A(同一集群的HDFS

  • distcp to hdfs of cluster B(不同簇

  • 进口蜂巢集B

二的:

  • 出口到B的HDFS(不同簇
  • 进口配置B群

distcp增加额外的优势吗?

目前尚不清楚“导出到HDFS”和“导入到Hive”的含义。无论如何,Hive数据文件都是存储在HDFS中的

对于管理表中,与位于下相同的“位置”以确定的方式所有这些数据文件,做最简单的事情是:

  • 打造集B有确切空管理的表相同的布局和SERDE - 也创造所有预期的分区,如果在一个任何
  • distcp整个HDFS树从“位置”到“位置” B中
  • 完成!

这就是我们做克隆一些PROD数据(ORC W/gzip压缩,按月分区)到测试集群。

请注意,您可以将副本限制为一个分区列表,在单个子目录上使用多个distcp命令。

+0

你将如何在集群B中使用完全相同的布局和Serde_创建一个空的托管表? –

+0

你有原始的'CREATE TABLE'脚本存档在代码回购(Git,SVN等),对吧?在另一个集群上再次运行它 –

+0

就像从客户集群获取数据一样,我们没有这些脚本。我们没有关于表格元数据的信息。 –