hive的mapjoin执行流程

普通的join

hive的mapjoin执行流程

mapjoin

hive的mapjoin执行流程
这两个区别是set hive.auto.convert.join = true;这个参数有没有开,默认为true(默认和使用mapjoin代替join)
在hive里使用explain select * from tablename;可以查看sql语句的执行流程。和上面两张图的过程是对应的。
mapjoin对于大表和小表是很适用(先把小表加载到内存中),但是对于两个相同大小的表(表的大小由元数据记录着),有可能是用的是普通的join(即使set hive.auto.convert.join = true;)。所以三张表查询有可能两个加载到内存,也有可能一张都不加载。