2、Spark基础知识学习
1、弹性分布式数据集(RDD):如下图所示,对于Spark而言,每次MR完成,会将结果存在分布式内存当中,从而节省在IO上花费的时间
迭代操作
交互操作
2、处理数据倾斜
现象:reduceBykey的时候,由于很多key是相同的,所以无论节点开启的是多少,总会有那么几台节点机器的压力非常大
解决方法:通过在shuffle环节之前,增加一个map操作,将上面的key暂时改变
1、弹性分布式数据集(RDD):如下图所示,对于Spark而言,每次MR完成,会将结果存在分布式内存当中,从而节省在IO上花费的时间
迭代操作
交互操作
2、处理数据倾斜
现象:reduceBykey的时候,由于很多key是相同的,所以无论节点开启的是多少,总会有那么几台节点机器的压力非常大
解决方法:通过在shuffle环节之前,增加一个map操作,将上面的key暂时改变