hive parquet table 配置压缩
最近用hivecontext 向hive parquet表中插入数据,发现了一个问题:总量700M的数据在parquet表中竟然有600M。
百度,发现了这个:https://blog.****.net/xiao_jun_0820/article/details/76893331
再看看自己的建表语句,确实没有指定压缩。
指定一下:
得到结果:gzip、文本形式的、snappy、默认parquet 的大小分别是:16.7M、705.2M、60.3M、603.6M