Hadoop初学者 - 数据提取和分析

问题描述:

HDFS存储结构化的&非结构化数据。热线& IMPALA使我们能够编写SQL查询,然后将其转换为MapReduce。用户如何了解存储数据的模式或者如何根据存储的数据形成这些表格?Hadoop初学者 - 数据提取和分析

+0

只有先前在Hive上定义了元数据,才能通过sql读取数据。这个元数据解释了数据的模式。请参阅有关在配置单元上创建表的参考。 –

+0

desc formatted table_name; - >给出了表详细信息和 如何显示create table table_name;给出了如何创建表格。 – sk7979

如果使用Parquet文件格式,则有用于直接检查文件块的工具。例如见this。大部分hadoop文件格式也有类似的方便工具,例如用于orcfiles的https://orc.apache.org/docs/tools.html