Spark中闭包的理解

概念的理解：函数可以访问函数外面的变量，但是函数内对变量的修改，在函数外是不可见的。
Spark中闭包的理解
RDD相关操作都需要传入自定义闭包函数(closure)，如果这个函数需要访问外部变量，那么需要遵循一定得规则，否则会抛出运行时异常。闭包函数传入到节点时，需要经过下面的步骤：

注意：外部变量在闭包内的修改不会被反馈到驱动程序。
简而言之，就是通过网络，传递函数到worker节点，然后执行。所以被传递的变量必须可以序列化，否则传递失败。本地执行时，仍然会执行上面四步。

广播机制也可以做到这一点，但是频繁的使用广播会使代码不够简洁，而且广播设计的初衷是将较大数据缓存到节点上，避免多次数据传输，提高计算效率，而不是用于进行外部变量访问。