Hive数据类型

基本类型（主数据类型）

整型（Integers）
- TINYINT - 1 byte 有符号整数
- SMALLINT - 2 byte 有符号整数
- INT - 4 byte 有符号整数
- BIGINT - 8 byte 有符号整数
布尔类型（Boolean）
- BOOLEAN - TRUE/FALSE
浮点类型（Floating point numbers）
- FLOAT - 单精度浮点数
- DOUBLE - 双精度浮点数
定点数（Fixed point numbers）
- DECIMAL - 用户定义的比例和精度的定点值
字符串（String types）
- STRING - 字符序列。可以指定字符集。可以使用单引号或者双引号。
- VARCHAR - 指定字符集中具有最大长度的字符序列
- CHAR - 指定字符集中具有指定长度的字符序列
日期和时间（Date and time types）
- TIMESTAMP - 没有时区(本地日期时间)的日期和时间
- TIMESTAMP WITH LOCAL TIME ZONE - 以纳秒为单位的时间点
- DATE - 日期
二进制类型（Binary types）
- BINARY - 字节数组

这些类型按照以下层次结构(其中父类是所有子实例的超类型):
Hive数据类型
此类型层次结构定义如何在查询语言中隐式转换类型。允许将类型从子类型隐式转换为祖先类型。因此，当查询表达式需要类型1且数据是类型2时，如果类型1是类型层次结构中类型2的祖先，则类型2将隐式转换为类型1。注意类型层次结构允许将字符串隐式转换为DOUBLE。
可以使用强制转换操作符cast进行显式类型转换。

复杂数据类型（集合数据类型）

可以使用以下方法用基本类型和其他复合类型构建复杂类型:

STRUCT：可以使用点(.)符号访问类型中的元素。例如，列c的类型为STRUCT {a INT;b INT}，表达式c.a访问a字段。（与C语言中的结构体类似）
MAP（键值对）：MAP是一组键-值对元组集合，使用数组表示法(例如[‘key’])可以访问元素。例如，如果某个列的数据类型是MAP，其中键->值对是’first’->’John’和’last’->’Doe’，那么可以通过字段名[‘last’]获取值’Doe’。
ARRAY：数组中的元素必须是相同类型的。可以使用[n]符号访问元素，其中n是数组中的索引(从0开始)。例如，对于具有[‘A’、‘b’、‘c’]元素的数组A，[1]返回’b’。

和基本数据类型一样，这些类型的名称同样是保留字。

大多数的关系型数据库并不支持这些集合数据类型，因为使用它们会趋向于破坏标准格式。例如，在传统数据模型中，structs可能需要由多个不同的表拼装而成，表间需要适当地使用外键来进行连接。

破坏标准格式所带来的一个实际问题是会增大数据冗余的风险，进而导致消耗不必要的磁盘空间，还有可能造成数据不一致，因为当数据发生改变时冗余的拷贝数据可能无法相应地同步。

然而，在大数据系统中，不遵循标准格式的一个好处是可以提供更高吞吐量的数据。当处理的数据的数量级是T或者P时，以最少的”头部寻址”来从磁盘上扫描数据时非常必要的。按数据集进行封装的话可以通过减少寻址次数来提高查询的速度。而如果根据外键关系关联的话则需要进行磁盘间的寻址操作，这样会有非常高的性能消耗。

时间戳类型（Timestamp Types）

Timestamp (“LocalDateTime” semantics)

Java的“LocalDateTime”时间戳记录的日期和时间为年、月、日、小时、分钟和秒，没有时区。这些时间戳总是具有相同的值，而与当地时区无关。表示的事在ISO-8601日历系统中没有时区的日期时间。

例如，“2014-12-12 12:34:56”的时间戳值被分解为年、月、日、小时、分钟和秒字段，但是没有可用的时区信息。它不对应于任何特定的时刻。它始终是相同的值，而不受当地时区的影响。除非您的应用程序一致使用UTC，否则对于大多数应用程序，带有本地时区的时间戳（timestamp with local time zone）比时间戳（timestamp）更受欢迎。当用户说事件在10:00时，它总是引用某个时区，表示时间点，而不是任意时区的10:00。

Timestamp with local time zone (“Instant” semantics)

Java的“即时”时间戳定义了一个时间点，无论在哪里读取数据，该时间点都保持不变。因此，Timestamp with local time zone时间戳将根据当地时区进行调整，以匹配原始时间点。

例如：

Type	Value in America/Los_Angeles	Value in America/New_York
timestamp	2014-12-12 12:34:56	2014-12-12 12:34:56
timestamp with local time zone	2014-12-12 12:34:56	2014-12-12 15:34:56

隐式转换

Hive数据类型

补充

随着版本更替，hive新增了一些数据类型，具体参见官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types

Numeric Types

TINYINT (1-byte signed integer, from -128 to 127)
SMALLINT (2-byte signed integer, from -32,768 to 32,767)
INT/INTEGER (4-byte signed integer, from -2,147,483,648 to 2,147,483,647)
BIGINT (8-byte signed integer, from -9,223,372,036,854,775,808 to 9,223,372,036,854,775,807)
FLOAT (4-byte single precision floating point number)
DOUBLE (8-byte double precision floating point number)
DOUBLE PRECISION (alias for DOUBLE, only available starting with Hive 2.2.0)
DECIMAL
- Introduced in Hive 0.11.0 with a precision of 38 digits
- Hive 0.13.0 introduced user-definable precision and scale
NUMERIC (same as DECIMAL, starting with Hive 3.0.0)

Date/Time Types

TIMESTAMP (Note: Only available starting with Hive 0.8.0)
DATE (Note: Only available starting with Hive 0.12.0)
INTERVAL (Note: Only available starting with Hive 1.2.0)

String Types

STRING
VARCHAR (Note: Only available starting with Hive 0.12.0)
CHAR (Note: Only available starting with Hive 0.13.0)

Misc Types

BOOLEAN
BINARY (Note: Only available starting with Hive 0.8.0)

Complex Types

arrays: ARRAY<data_type> (Note: negative values and non-constant expressions are allowed as of Hive 0.14.)
maps: MAP<primitive_type, data_type> (Note: negative values and non-constant expressions are allowed as of Hive 0.14.)
structs: STRUCT<col_name : data_type [COMMENT col_comment], …>
union: UNIONTYPE<data_type, data_type, …> (Note: Only available starting with Hive 0.7.0.)

基本类型（主数据类型）

复杂数据类型（集合数据类型）

时间戳类型（Timestamp Types）

隐式转换

补充

相关推荐