如何仅在管道流中的活动完成后才在AWS数据管道中启动EMR群集

问题描述:

是否只有在完成AWS Data Pipeline流中的一项活动后才能启动EMR群集?如何仅在管道流中的活动完成后才在AWS数据管道中启动EMR群集

  1. 从Redshift卸载一些数据(可能需要一个小时或一小时+)。
  2. 开始EMR集群
  3. 在EMR集群执行火花工作
  4. 执行一些其他活动
  5. 终止集群

所以,我想有一个像“开始EMR集群”的依赖应取决于“将数据从Redshift卸载到S3”,并且“终止集群”应该依赖于“执行Spark任务,执行一些其他活动”。

有人可以帮我解决这个问题。

-Krish

您可以利用Precondition 这里做的是了解详情

您也可以通过复制操作做的文档,并把拷贝操作为前提

所以你一旦满足则可以将依赖性作为先决条件然后创建EMR集群。

https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-concepts-preconditions.html

Precondition