hive的orc和parquet和textfile三种格式的压缩与存储

数据库压缩方式有四种 分别是 orc格式 parquet格式以及默认的textfile格式

三种格式压缩效率

这三种格式 orc的压缩效率最高 其次是parquet 最后是默认的textfile
我的文件分别用三种格式创建数据库并加载进去

hive的orc和parquet和textfile三种格式的压缩与存储
textfile格式 文件大小未改变
hive的orc和parquet和textfile三种格式的压缩与存储
parquet 格式 文件变小一点
hive的orc和parquet和textfile三种格式的压缩与存储
orc格式 文件压缩效率最高
hive的orc和parquet和textfile三种格式的压缩与存储
文件大小:Textfile>parquet>orc
由此看出 orc的压缩效率最大

查询文件的效率怎么样

第一个 textfile创建的数据库
第一次查询 9.324秒

hive的orc和parquet和textfile三种格式的压缩与存储
第二次查询 9.306秒
hive的orc和parquet和textfile三种格式的压缩与存储
第二个 parquet创建的数据库
第一次查询 13.912秒
hive的orc和parquet和textfile三种格式的压缩与存储
第二次查询 11.45秒
hive的orc和parquet和textfile三种格式的压缩与存储

第三个 orc 创建的数据库
第一次查询 18.899秒
hive的orc和parquet和textfile三种格式的压缩与存储
第二次查询 9.368
hive的orc和parquet和textfile三种格式的压缩与存储