52、Spark性能优化之对多次使用的RDD进行持久化或Checkpoint

如果程序中，对某一个RDD，基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作，以避免对一个RDD反复进行计算。
此外，如果要保证在RDD的持久化数据可能丢失的情况下，还要保证高性能，那么可以对RDD进行Checkpoint操作。

对于多次操作的RDD进行持久化和Checkpoint操作.png

持久化，再checkpoint
这样，第一次，需要重新计算RDD
第二次计算该RDD，其实会从BlockManager中，取出其数据，而不需要再次对第一个RDD和第二个RDD进行计算了
但是，有可能持久化的数据，存储在BlockManager中的数据，可能会丢失掉。如果持久化的数据丢失了，那么在第二次计算该RDD时，会发现，BlockManager中没有数据，此时，会尝试读取器checkpoint数据，如果读取不出来，只能重新计算第一个RDD和第二个RDD了
所以，如果持久化数据可能丢失的情况下，还要保证高性能，那么就干脆第一次计算RDD时，消耗一些性能，对RDD进行checkpoint操作，这样，哪怕其持久化数据丢失了，也可以直接读取其checkpoint的数据

52、Spark性能优化之对多次使用的RDD进行持久化或Checkpoint

相关推荐