hive parquet table 配置压缩

最近用hivecontext 向hive parquet表中插入数据,发现了一个问题:总量700M的数据在parquet表中竟然有600M。

百度,发现了这个:https://blog.****.net/xiao_jun_0820/article/details/76893331

再看看自己的建表语句,确实没有指定压缩。

指定一下:

hive parquet table 配置压缩

得到结果:gzip、文本形式的、snappy、默认parquet 的大小分别是:16.7M、705.2M、60.3M、603.6M