Spark简介
1.Spark集群部署后,需要在主节点和从节点分贝启动Master进行和Worker进程,对整个集群进行控制
2.在一个Spark应用的执行过程中,Driver和Worker是2个重要角色
3.Driver程序是应用逻辑执行的起点,负责作业的调度,即Task任务的分发,而多个Worker用来管理计算节点和创建Executor并行处理任务。
4.在执行阶段,Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机器,同时Executor对相应数据分区的任务进行处理
Spark的整体流程为:
- Client提交应用,Master找到一个Worker启动Driver
- Driver向Master或者资源管理器申请资源,之后将应用转化为RDD Graph
- 再由DAGScheduler将RDD Graph转化为Stage的有向无环图提交给TaskScheduler
- 由TaskScheduler提交任务给Executor执行。
- 在任务执行的过程中,其他组件协同工作,确保整个应用顺利执行