hive面试--hive与常见数据库区别以及hive的数据类型

一、hive与常见数据库的区别
hive是数据仓库的基础工具，能够将结构化的数据映射为一张张表从而进行sql操作。

数据存储位置
hive是建立在hadoop的基础之上的，所有hive的数据都是存储在hdfs上；而数据库则可以将数据保存在块设备或者本地文件系统中
数据更新
由于hive是针对数据仓库进行设计的，而数据仓库主要是进行数据分析，即读多写少，所以hive中是不建议对数据进行改写，所有的数据在加载的时候就已经确定了；而数据库中的数据通常是要进行修改的，即进行inerst into … values添加数据和update…set修改语句
默认情况下，hive是不支持行级更新和删除。如果要进行行级操作，需要修改hive的配置参数让hive支持事务操作。
数据执行
hive的执行引擎是mapReduce,并且hive没有索引，所以在hive的查询会有较高的延迟，相对而言，数据库的执行延迟会比较低。当然这个比较低也是在数据量比较小的条件下，当数据规模大到超出数据库的执行能力的时候，hive的并行计算能力就体现出来了。
可扩展性
hive是建立在hadoop上，所以hive和hadoop一样具有良好的扩展性；而数据库由于ACID语义的严格限制，扩展性非常有限
ACID即关系型数据库的事务的四大特征：
A（Atomicity）原子性：事务的所有操作要么全部成功要么全部失败
C（Consistency）一致性：数据库要一直处于一致的状态，事务的运行不会改变数据库原本的一致性约束。比如现在完整性约束a+b=10，如果一个事务改变了a，那么必须改变b，使得事务结束后依然满足a+b=10，否则事务失败。
I（Isolation）独立性：并发的事务之间不会互相影响，如果一个事务要访问的数据正在被另外一个事务修改，只要另外一个事务未提交，它所访问的数据就不会受未提交事务的影响。
D（Durability）持久性：一旦事务提交之后，它所做的修改将会永久的保存在数据库上，即使出现宕机也不会丢失。

二、hive的数据类型

基本数据类型

hive中string和数据库中varchar类型基本一致，不过hive中的string不能声明字段的长度
集合数类型

三、hive底层如何存储null值
int和string类型的数据，hive存储null值默认都是 ‘\N’，如果int类型字段插入’ '，那么hive底层是当作null值按照 '\N’存储，如果String类型字段插入" “，那么hive底层是当作” "来存储。对于int类型的数据用 is null来判断null值，对于String类型的数据，用 is null来判断null值，用 = " "来判断空值。

hive面试--hive与常见数据库区别以及hive的数据类型

相关推荐