pyspark必知必会(持续更新中)

RDD 和DF

  • 联系
  1. 都是弹性分布式数据集,轻量集
  2. 惰性机制,延迟计算
  3. 根据内存情况,自动缓存,加快计算速度
  4. 都有partition概念
  5. 众多相同的算子
  • 区别
    DF引入了schema和off-heap
    schema RDD每一行的数据结构都是一样的
    off-heap 意味着JVM堆以外的内存
  1. RDD
    优点:
  • 强大,内置很多函数操作,group,map,filter等,方便处理结构化或非结构化数据

  • 面向对象编程,直接存储的java对象,类型转化也安全

    缺点:

  • 由于它基本和hadoop一样万能的,因此没有针对特殊场景的优化,比如对于结构化数据处理相对于sql来比非常麻烦

  • 默认采用的是java***方式,序列化结果比较大,而且数据存储在java堆内存中,导致gc比较频繁。

  1. DF
    优点:
  • 结构化数据处理非常方便,支持Avro, CSV, elastic search, and Cassandra等kv数据,也支持HIVE tables, MySQL等传统数据表

  • 有针对性的优化,由于数据结构元信息spark已经保存,序列化时不需要带上元信息,大大的减少了序列化大小,而且数据保存在堆外内存中,减少了gc次数。

  • hive兼容,支持hql,udf等

    缺点:

  • 编译时不能类型转化安全检查,运行时才能确定是否有问题

  • 对于对象支持不友好,rdd内部数据直接以java对象存储,dataframe内存存储的是row对象而不能是自定义对象

reducebykey 和combinebykey

pyspark必知必会(持续更新中)pyspark必知必会(持续更新中)