用Impala处理庞大的数据集

问题描述：

我对Impala和一些传统的SQL数据库系统有一个普遍的问题。我听说Impala可以从字面上理解某些SQL语句，并将数十亿行的表格（例如，带有重复行的连接语句可能发生的情况）吐出。作为一个更狭窄的例子，假设我运行“SELECT * FROM database”之类的东西。就直接控制台输出而言，我知道大多数传统SQL数据库在达到1000个条目的限制时将停止运行。 Impala也是如此吗？换句话说，如果我在Impala中运行“SELECT * FROM database”，它理论上是在做更多的工作，即使它最终会吐出有限数量的行吗？用Impala处理庞大的数据集

答

我认为这取决于你用来做什么查询。如果您只是在Bash或Impala shell的命令行中运行，它将获取所有结果，但是如果您使用Hue，它将按照您所描述的方式对结果进行翻页。实际上，对于任何数据库也是如此，如果您使用GUI来访问它，您可以像导出到csv命令一样运行以获得完整的结果集，或者如果以编程方式访问，则可以使用fetchall()。

用Impala处理庞大的数据集

相关推荐