Spark简介

Spark简介

1.Spark集群部署后,需要在主节点和从节点分贝启动Master进行和Worker进程,对整个集群进行控制

2.在一个Spark应用的执行过程中,Driver和Worker是2个重要角色

3.Driver程序是应用逻辑执行的起点,负责作业的调度,即Task任务的分发,而多个Worker用来管理计算节点和创建Executor并行处理任务。

4.在执行阶段,Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机器,同时Executor对相应数据分区的任务进行处理

 
Spark的整体流程为:
  1. Client提交应用,Master找到一个Worker启动Driver
  2. Driver向Master或者资源管理器申请资源,之后将应用转化为RDD Graph
  3. 再由DAGScheduler将RDD Graph转化为Stage的有向无环图提交给TaskScheduler
  4. 由TaskScheduler提交任务给Executor执行。
  5. 在任务执行的过程中,其他组件协同工作,确保整个应用顺利执行