用Impala处理庞大的数据集

问题描述:

我对Impala和一些传统的SQL数据库系统有一个普遍的问题。我听说Impala可以从字面上理解某些SQL语句,并将数十亿行的表格(例如,带有重复行的连接语句可能发生的情况)吐出。作为一个更狭窄的例子,假设我运行“SELECT * FROM database”之类的东西。就直接控制台输出而言,我知道大多数传统SQL数据库在达到1000个条目的限制时将停止运行。 Impala也是如此吗?换句话说,如果我在Impala中运行“SELECT * FROM database”,它理论上是在做更多的工作,即使它最终会吐出有限数量的行吗?用Impala处理庞大的数据集

我认为这取决于你用来做什么查询。如果您只是在Bash或Impala shell的命令行中运行,它将获取所有结果,但是如果您使用Hue,它将按照您所描述的方式对结果进行翻页。实际上,对于任何数据库也是如此,如果您使用GUI来访问它,您可以像导出到csv命令一样运行以获得完整的结果集,或者如果以编程方式访问,则可以使用fetchall()