为什么Hive SQL要分析过程
- sql执行非常慢
-
sql执行的步骤
Predicate Push Down 和MapJoin发生在逻辑执行计划还是物理执行计划?
group by的过程
mapreduce count过程:
- split ==> (word,1)
- shuffle:(word,1) partition ==> reduce
- reduce:(word,可迭代的(1,1,1,1…)) ⇒ (word,sum(可迭代的))
group by的流程和mapreduce一模一样
combiner:本地的reduce,先做一个局部的聚合