如何仅在管道流中的活动完成后才在AWS数据管道中启动EMR群集
问题描述:
是否只有在完成AWS Data Pipeline流中的一项活动后才能启动EMR群集?如何仅在管道流中的活动完成后才在AWS数据管道中启动EMR群集
- 从Redshift卸载一些数据(可能需要一个小时或一小时+)。
- 开始EMR集群
- 在EMR集群执行火花工作
- 执行一些其他活动
- 终止集群
所以,我想有一个像“开始EMR集群”的依赖应取决于“将数据从Redshift卸载到S3”,并且“终止集群”应该依赖于“执行Spark任务,执行一些其他活动”。
有人可以帮我解决这个问题。
-Krish
答
您可以利用Precondition
这里做的是了解详情
您也可以通过复制操作做的文档,并把拷贝操作为前提
所以你一旦满足则可以将依赖性作为先决条件然后创建EMR集群。
https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-concepts-preconditions.html