Hive数据类型
基本类型(主数据类型)
- 整型(Integers)
- TINYINT - 1 byte 有符号整数
- SMALLINT - 2 byte 有符号整数
- INT - 4 byte 有符号整数
- BIGINT - 8 byte 有符号整数
- 布尔类型(Boolean)
- BOOLEAN - TRUE/FALSE
- 浮点类型(Floating point numbers)
- FLOAT - 单精度浮点数
- DOUBLE - 双精度浮点数
- 定点数(Fixed point numbers)
- DECIMAL - 用户定义的比例和精度的定点值
- 字符串(String types)
- STRING - 字符序列。可以指定字符集。可以使用单引号或者双引号。
- VARCHAR - 指定字符集中具有最大长度的字符序列
- CHAR - 指定字符集中具有指定长度的字符序列
- 日期和时间(Date and time types)
- TIMESTAMP - 没有时区(本地日期时间)的日期和时间
- TIMESTAMP WITH LOCAL TIME ZONE - 以纳秒为单位的时间点
- DATE - 日期
- 二进制类型(Binary types)
- BINARY - 字节数组
这些类型按照以下层次结构(其中父类是所有子实例的超类型):
此类型层次结构定义如何在查询语言中隐式转换类型。允许将类型从子类型隐式转换为祖先类型。因此,当查询表达式需要类型1且数据是类型2时,如果类型1是类型层次结构中类型2的祖先,则类型2将隐式转换为类型1。注意类型层次结构允许将字符串隐式转换为DOUBLE。
可以使用强制转换操作符cast进行显式类型转换。
复杂数据类型(集合数据类型)
可以使用以下方法用基本类型和其他复合类型构建复杂类型:
- STRUCT:可以使用点(.)符号访问类型中的元素。例如,列c的类型为STRUCT {a INT;b INT},表达式c.a访问a字段。(与C语言中的结构体类似)
- MAP(键值对):MAP是一组键-值对元组集合,使用数组表示法(例如[‘key’])可以访问元素。例如,如果某个列的数据类型是MAP,其中键->值对是’first’->’John’和’last’->’Doe’,那么可以通过字段名[‘last’]获取值’Doe’。
- ARRAY:数组中的元素必须是相同类型的。可以使用[n]符号访问元素,其中n是数组中的索引(从0开始)。例如,对于具有[‘A’、‘b’、‘c’]元素的数组A,[1]返回’b’。
和基本数据类型一样,这些类型的名称同样是保留字。
大多数的关系型数据库并不支持这些集合数据类型,因为使用它们会趋向于破坏标准格式。例如,在传统数据模型中,structs可能需要由多个不同的表拼装而成,表间需要适当地使用外键来进行连接。
破坏标准格式所带来的一个实际问题是会增大数据冗余的风险,进而导致消耗不必要的磁盘空间,还有可能造成数据不一致,因为当数据发生改变时冗余的拷贝数据可能无法相应地同步。
然而,在大数据系统中,不遵循标准格式的一个好处是可以提供更高吞吐量的数据。当处理的数据的数量级是T或者P时,以最少的”头部寻址”来从磁盘上扫描数据时非常必要的。按数据集进行封装的话可以通过减少寻址次数来提高查询的速度。而如果根据外键关系关联的话则需要进行磁盘间的寻址操作,这样会有非常高的性能消耗。
时间戳类型(Timestamp Types)
- Timestamp (“LocalDateTime” semantics)
Java的“LocalDateTime”时间戳记录的日期和时间为年、月、日、小时、分钟和秒,没有时区。这些时间戳总是具有相同的值,而与当地时区无关。表示的事在ISO-8601日历系统中没有时区的日期时间。
例如,“2014-12-12 12:34:56”的时间戳值被分解为年、月、日、小时、分钟和秒字段,但是没有可用的时区信息。它不对应于任何特定的时刻。它始终是相同的值,而不受当地时区的影响。除非您的应用程序一致使用UTC,否则对于大多数应用程序,带有本地时区的时间戳(timestamp with local time zone)比时间戳(timestamp)更受欢迎。当用户说事件在10:00时,它总是引用某个时区,表示时间点,而不是任意时区的10:00。
- Timestamp with local time zone (“Instant” semantics)
Java的“即时”时间戳定义了一个时间点,无论在哪里读取数据,该时间点都保持不变。因此,Timestamp with local time zone时间戳将根据当地时区进行调整,以匹配原始时间点。
例如:
Type | Value in America/Los_Angeles | Value in America/New_York |
---|---|---|
timestamp | 2014-12-12 12:34:56 | 2014-12-12 12:34:56 |
timestamp with local time zone | 2014-12-12 12:34:56 | 2014-12-12 15:34:56 |
隐式转换
补充
随着版本更替,hive新增了一些数据类型,具体参见官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types
Numeric Types
- TINYINT (1-byte signed integer, from -128 to 127)
- SMALLINT (2-byte signed integer, from -32,768 to 32,767)
- INT/INTEGER (4-byte signed integer, from -2,147,483,648 to 2,147,483,647)
- BIGINT (8-byte signed integer, from -9,223,372,036,854,775,808 to 9,223,372,036,854,775,807)
- FLOAT (4-byte single precision floating point number)
- DOUBLE (8-byte double precision floating point number)
- DOUBLE PRECISION (alias for DOUBLE, only available starting with Hive 2.2.0)
- DECIMAL
- Introduced in Hive 0.11.0 with a precision of 38 digits
- Hive 0.13.0 introduced user-definable precision and scale
- NUMERIC (same as DECIMAL, starting with Hive 3.0.0)
Date/Time Types
- TIMESTAMP (Note: Only available starting with Hive 0.8.0)
- DATE (Note: Only available starting with Hive 0.12.0)
- INTERVAL (Note: Only available starting with Hive 1.2.0)
String Types
- STRING
- VARCHAR (Note: Only available starting with Hive 0.12.0)
- CHAR (Note: Only available starting with Hive 0.13.0)
Misc Types
- BOOLEAN
- BINARY (Note: Only available starting with Hive 0.8.0)
Complex Types
- arrays: ARRAY<data_type> (Note: negative values and non-constant expressions are allowed as of Hive 0.14.)
- maps: MAP<primitive_type, data_type> (Note: negative values and non-constant expressions are allowed as of Hive 0.14.)
- structs: STRUCT<col_name : data_type [COMMENT col_comment], …>
- union: UNIONTYPE<data_type, data_type, …> (Note: Only available starting with Hive 0.7.0.)