使用Airflow将数据从Postgres/MySQL移动到S3

问题描述:

我们正试图从Pentaho Kettle转移到Apache AIrflow来执行ETL,并将所有数据流程集中到1个工具下。使用Airflow将数据从Postgres/MySQL移动到S3

我们使用水壶从Postgres/Mysql数据库每日读取数据,并将数据移至S3 - > Redshift。

这样做最简单的方法是什么?我没有看到运营商可以直接做到这一点;所以我应该使用MySQL/Postgres运算符将数据放入本地文件中,并使用S3运算符将数据移至S3?

谢谢

你可以建立自己的运营商mysql_to_s3“并将其添加为一个插件气流。

有从MySQL数据归档到GCS操作:

mysql_to_gcs.py

你可以让与def _upload_to_gcs变化不大使用s3_hook代替所有代码:s3_hook.py

文档有关自定义插件:

Airflow plugins: Blog article

Airflow plugins: Official documentation