hive面试--hive与常见数据库区别以及hive的数据类型

一、hive与常见数据库的区别
hive是数据仓库的基础工具,能够将结构化的数据映射为一张张表从而进行sql操作。

  1. 数据存储位置
    hive是建立在hadoop的基础之上的,所有hive的数据都是存储在hdfs上;而数据库则可以将数据保存在块设备或者本地文件系统中

  2. 数据更新
    由于hive是针对数据仓库进行设计的,而数据仓库主要是进行数据分析,即读多写少,所以hive中是不建议对数据进行改写,所有的数据在加载的时候就已经确定了;而数据库中的数据通常是要进行修改的,即进行inerst into … values添加数据和update…set修改语句
    默认情况下,hive是不支持行级更新和删除。如果要进行行级操作,需要修改hive的配置参数让hive支持事务操作。

  3. 数据执行
    hive的执行引擎是mapReduce,并且hive没有索引,所以在hive的查询会有较高的延迟,相对而言,数据库的执行延迟会比较低。当然这个比较低也是在数据量比较小的条件下,当数据规模大到超出数据库的执行能力的时候,hive的并行计算能力就体现出来了。

  4. 可扩展性
    hive是建立在hadoop上,所以hive和hadoop一样具有良好的扩展性;而数据库由于ACID语义的严格限制,扩展性非常有限
    ACID即关系型数据库的事务的四大特征:
    A(Atomicity)原子性:事务的所有操作要么全部成功要么全部失败
    C(Consistency)一致性:数据库要一直处于一致的状态,事务的运行不会改变数据库原本的一致性约束。比如 现在完整性约束a+b=10,如果一个事务改变了a,那么必须改变b,使得事务结束后依然满足a+b=10,否则事务失败。
    I(Isolation)独立性:并发的事务之间不会互相影响,如果一个事务要访问的数据正在被另外一个事务修改,只要另外一个事务未提交,它所访问的数据就不会受未提交事务的影响。
    D(Durability)持久性:一旦事务提交之后,它所做的修改将会永久的保存在数据库上,即使出现宕机也不会丢失。

二、hive的数据类型

  1. 基本数据类型
    hive面试--hive与常见数据库区别以及hive的数据类型
    hive中string和数据库中varchar类型基本一致,不过hive中的string不能声明字段的长度

  2. 集合数类型
    hive面试--hive与常见数据库区别以及hive的数据类型
    三、hive底层如何存储null值
    int和string类型的数据,hive存储null值默认都是 ‘\N’,如果int类型字段插入’ ',那么hive底层是当作null值按照 '\N’存储,如果String类型字段插入" “,那么hive底层是当作” "来存储。对于int类型的数据用 is null来判断null值,对于String类型的数据,用 is null来判断null值,用 = " "来判断空值。