您的位置: 首页 > 文章 > pyspark必知必会（持续更新中）

pyspark必知必会（持续更新中）

分类: 文章 • 2025-02-27 23:07:28

RDD 和DF

联系

都是弹性分布式数据集，轻量集
惰性机制，延迟计算
根据内存情况，自动缓存，加快计算速度
都有partition概念
众多相同的算子

区别
DF引入了schema和off-heap
schema RDD每一行的数据结构都是一样的
off-heap 意味着JVM堆以外的内存

RDD
优点：

强大，内置很多函数操作，group，map，filter等，方便处理结构化或非结构化数据
面向对象编程，直接存储的java对象，类型转化也安全

缺点：
由于它基本和hadoop一样万能的，因此没有针对特殊场景的优化，比如对于结构化数据处理相对于sql来比非常麻烦
默认采用的是java***方式，序列化结果比较大，而且数据存储在java堆内存中，导致gc比较频繁。

DF
优点：

结构化数据处理非常方便，支持Avro, CSV, elastic search, and Cassandra等kv数据，也支持HIVE tables, MySQL等传统数据表
有针对性的优化，由于数据结构元信息spark已经保存，序列化时不需要带上元信息，大大的减少了序列化大小，而且数据保存在堆外内存中，减少了gc次数。
hive兼容，支持hql，udf等

缺点：
编译时不能类型转化安全检查，运行时才能确定是否有问题
对于对象支持不友好，rdd内部数据直接以java对象存储，dataframe内存存储的是row对象而不能是自定义对象

reducebykey 和combinebykey

pyspark必知必会（持续更新中）