Я извлек данные из API с помощью Airflow. Данные извлекаются из API и сохраняются в облачном хранилище в формате JSON.
Следующим шагом является вставка данных в базу данных SQL. У меня есть несколько вопросов:
Я пока не выбрал конкретную БД, поэтому не стесняйтесь выбирать ту, которая, по вашему мнению, подходит лучше всего.
Спасибо!
Вы можете использовать Airflow просто как планировщик для запуска некоторых скриптов python/bash в определенное время с некоторыми правилами зависимостей, но вы также можете воспользоваться преимуществами операторов и перехватчиков, предоставляемых сообществом Airflow.
Что касается части ETL, Airflow не является инструментом ETL. Если вам нужны конвейеры ETL, вы можете запускать их и управлять ими с помощью Airlfow, но для их создания вам потребуется сервис/инструмент ETL (Spark, Athena, Glue, ...).
Чтобы вставить данные в БД, вы можете создать свой собственный скрипт python/bash и запустить его или использовать существующие операторы. У вас есть несколько общих операторов и хуков для postgress, MySQL и различных баз данных (MySQL , postgres , oracle , mssql ), а также есть некоторые другие оптимизированные операторы и хуки для каждого облачного сервиса. ( AWS RDS , GCP Cloud SQL , GCP Spanner...), если вы хотите использовать один из управляемых/бессерверных сервисов, я рекомендую использовать его операторов, а если вы хотите развернуть свой service на кластере VM или K8S, вам нужно использовать общие.
Airflow поддерживает почти все популярные облачные сервисы, поэтому попробуйте выбрать поставщика облачных услуг, исходя из стоимости, производительности, знаний команды и других потребностей вашего проекта, и вы обязательно найдете хороший способ достичь своей цели с помощью Airlfow.
Изображение:1 Некоторые разъемы, поддерживаемые ADF.
Обратитесь к документам MS по предварительным требованиям и Требуемым разрешениям для подключения облачного хранилища Google к ADF.
Используйте исходный коннектор в качестве хранилища Google Cloud при копировании. Ссылка: Копирование данных из облачного хранилища Google — Фабрика данных Azure и Azure Synapse | Обучение Майкрософт
Возьмите разъем SQL DB для приемника.
Какое облачное хранилище вы используете?