使用Airflow将数据从Postgres/MySQL移动到S3
问题描述:
我们正试图从Pentaho Kettle转移到Apache AIrflow来执行ETL,并将所有数据流程集中到1个工具下。使用Airflow将数据从Postgres/MySQL移动到S3
我们使用水壶从Postgres/Mysql数据库每日读取数据,并将数据移至S3 - > Redshift。
这样做最简单的方法是什么?我没有看到运营商可以直接做到这一点;所以我应该使用MySQL/Postgres运算符将数据放入本地文件中,并使用S3运算符将数据移至S3?
谢谢
答
你可以建立自己的运营商mysql_to_s3“并将其添加为一个插件气流。
有从MySQL数据归档到GCS操作:
你可以让与def _upload_to_gcs
变化不大使用s3_hook代替所有代码:s3_hook.py。
文档有关自定义插件: