hive面试--hive与常见数据库区别以及hive的数据类型
一、hive与常见数据库的区别
hive是数据仓库的基础工具,能够将结构化的数据映射为一张张表从而进行sql操作。
-
数据存储位置
hive是建立在hadoop的基础之上的,所有hive的数据都是存储在hdfs上;而数据库则可以将数据保存在块设备或者本地文件系统中 -
数据更新
由于hive是针对数据仓库进行设计的,而数据仓库主要是进行数据分析,即读多写少,所以hive中是不建议对数据进行改写,所有的数据在加载的时候就已经确定了;而数据库中的数据通常是要进行修改的,即进行inerst into … values添加数据和update…set修改语句
默认情况下,hive是不支持行级更新和删除。如果要进行行级操作,需要修改hive的配置参数让hive支持事务操作。 -
数据执行
hive的执行引擎是mapReduce,并且hive没有索引,所以在hive的查询会有较高的延迟,相对而言,数据库的执行延迟会比较低。当然这个比较低也是在数据量比较小的条件下,当数据规模大到超出数据库的执行能力的时候,hive的并行计算能力就体现出来了。 -
可扩展性
hive是建立在hadoop上,所以hive和hadoop一样具有良好的扩展性;而数据库由于ACID语义的严格限制,扩展性非常有限
ACID即关系型数据库的事务的四大特征:
A(Atomicity)原子性:事务的所有操作要么全部成功要么全部失败
C(Consistency)一致性:数据库要一直处于一致的状态,事务的运行不会改变数据库原本的一致性约束。比如 现在完整性约束a+b=10,如果一个事务改变了a,那么必须改变b,使得事务结束后依然满足a+b=10,否则事务失败。
I(Isolation)独立性:并发的事务之间不会互相影响,如果一个事务要访问的数据正在被另外一个事务修改,只要另外一个事务未提交,它所访问的数据就不会受未提交事务的影响。
D(Durability)持久性:一旦事务提交之后,它所做的修改将会永久的保存在数据库上,即使出现宕机也不会丢失。
二、hive的数据类型
-
基本数据类型
hive中string和数据库中varchar类型基本一致,不过hive中的string不能声明字段的长度 -
集合数类型
三、hive底层如何存储null值
int和string类型的数据,hive存储null值默认都是 ‘\N’,如果int类型字段插入’ ',那么hive底层是当作null值按照 '\N’存储,如果String类型字段插入" “,那么hive底层是当作” "来存储。对于int类型的数据用 is null来判断null值,对于String类型的数据,用 is null来判断null值,用 = " "来判断空值。