您的位置: 首页 > 文章 > 2、Spark基础知识学习

2、Spark基础知识学习

分类: 文章 • 2022-10-22 23:55:50

1、弹性分布式数据集(RDD)：如下图所示，对于Spark而言，每次MR完成，会将结果存在分布式内存当中，从而节省在IO上花费的时间

迭代操作

2、Spark基础知识学习

交互操作

2、Spark基础知识学习

2、处理数据倾斜

现象：reduceBykey的时候，由于很多key是相同的，所以无论节点开启的是多少，总会有那么几台节点机器的压力非常大

2、Spark基础知识学习

解决方法：通过在shuffle环节之前，增加一个map操作，将上面的key暂时改变

2、Spark基础知识学习