学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

一、Hive的分区：我理解为类似mysql分表的概念。Hive表所在的文件夹下面将数据文件按规则分成多个。这样单涉及其中一个文件时会提高效率。

建表的同时分区.注意分区也是一列。所以下面设置分区，属性处就不能有一样的（如下列中的age）。避免重复。

下面为单分区建表：

create table psn3
(
id int,
name string,
likes array<string>,
address map<string,string>
)
row format delimited
fields terminated by ','
collection items terminated by '-'
map keys terminated by ':';

加载数据并在处理时分区：load data local inpath '/root/data/data' into table psn3 partition(age=20);

分区后效果：

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

当然还有双分区、多分区等。

注意分区是在创建表的时候指定的。不可以后需添加。而官网中的add partition其实是添加分区的值（不能修改或添加列），但是分区的顺序可以换（当多个分区时），他真正的分区顺序是在定义是完成的，这里是个匹配的过程。修改语句如下

alter table psn4 add partition(age=30);

分区的删除：学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。可以删除单个分区（也可删除多个中的其中一个）；

以上为静态分区。

查询分区信息：show partitions psn3;

修复分区：分区信息为元数据信息。如果文件存储格式按照分区规则存储，新建分区的表后，直接查询（中间没有拉取数据形成分区的过程），这时直接查询是查不到结果的。执行：Msck repair table psn5;产生了元数据信息。所以修复了分区。

二、DML

创建表除了之前提到的方式，还有几种：

注意：之前提到的load data local input 'x/x' into table xxx 中的local去掉则是从hdfs中拉取数据。但是被拉取后数据所在文件是移动过来的。原位置文件会不再存在。

1、这个注意要insert的表要提前创建好。

from psn
insert overwrite table psn6
select id,name
insert overwrite table psn7
select id,name;

删除与修改的操作进行时要实现事务。一般不做删除与修改。

三、HiveSerDe

类似 row format的功能：

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

四、Hive Beeline:客户端。常使用。

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

Beeline是hiveserver2的客户端hiveserver2支持同时多个远程访问。支持JDBC/ODBC访问。

代码：

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

五、Hive函数。这里自行阅读官网。直接搜UDF即可。

Hive sql中不支持in 、exits。

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。 map与array的个数。

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

自定义函数：打包完成后，最后一句是创建临时函数。

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

第二种：

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

练习：之前的单词统计使用hive sql完成？

数据：word as scala

java scala as love sel

word java python ll

1、数据放到linux(略)

2、创建表拉取数据：

create table wc3
(
line string
);

load data local inpath 'test.txt' into table wc3;

3、创建结果表：

create table wc4
(
word string,
count int
)
row format delimited
fields terminated by ',';

4、数据转换：

from （select explode(split(line,' ') w) from wc3）t

insert into wc4

select w,count(w) group by w;

完成。

学习Hive(二)Hive分区、DML、HiveSerDe、Hive函数。

相关推荐