Spark(二)部署方式
第一篇中,我们启动了Spark,有没有发现我们启动了三个节点,一个是Spark master节点,另外两个是slaves节点。这其实就是用的Spark自带的standalone模式启动的。
我们来总结下,有几种方式啊。
- local模式:local模式就是本地模式,这种模式多用于开发和测试,和有没有Spark环境没多大关系,你可以在本地项目里写一段Spark程序,以这种模式启动,都无需连接到Spark环境内。
- standalone(集群模式)。这就是第一篇里说的,master/salves模式。但是这种模式存在master单点,我们可以利用zk解决掉master的单点问题。
- on yarn(集群模式),这就需要Haddop的东西,运行部署在yarn上,由yarn负责资源管理,Spark负责调度和计算。
- 其他等等,基本用不到,不介绍了。
local模式:
- 代码里可以指定master(这里先有一个直观印象,不要理会里面的细节)
这段程序设置的就是以local模式启动,读取input.txt文件内的数据,进行数据解析,最后写到output.txt文件中。(由于本人也是萌新,暂时不清楚这样写是否合理,不要见怪)
2.Spark交互式命令行 spark-shell
可以看见,它提示了我们可以使用 sc变量,这是Spark的上下文,spark 这是Spark Session。定义好了,你可以直接使用。
standalone(集群模式)
这是Spark自带的,也是我本机测试的时候启动方式。142启动了,master,143,144启动了woker
yarn
暂时没涉及