Я получаю много транзакций во время простоя (Airflow и Azure File Share)

Мне нужно загрузить данные из разных файлов в базу данных Azure SQL. Поэтому я настроил виртуальную машину с Airflow и двумя общими папками Azure, одну для моих дагов (чтобы я мог изменять их без подключения к виртуальной машине по протоколу ssh), а другую — для сброса файлов, которые будут загружены.

Я смонтировал эти два файловых ресурса на виртуальную машину и свой компьютер и использовал их как обычные диски.

В настоящее время система простаивает, и я вижу на портале Azure, что каждые 5 минут я получаю около 24 000 транзакций, но я не вижу, что конкретно их генерирует.

Возможно ли, что виртуальная машина постоянно запрашивает список файлов или прикасается к общей папке, чтобы проверить, существует ли она? Как я могу этого избежать?

Спасибо!

Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM
Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM
В предыдущей статье мы завершили установку базы данных, для тех, кто не знает.
Как установить LAMP Stack 1/2 на Azure Linux VM
Как установить LAMP Stack 1/2 на Azure Linux VM
В дополнение к нашему предыдущему сообщению о намерении Azure прекратить поддержку Azure Database для MySQL в качестве единого сервера после 16...
2
0
210
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Я могу подтвердить, что наличие папки dags на общем диске было причиной безумного количества транзакций. Я переместил папку dags на диск виртуальной машины, и теперь все вернулось в норму.

Привет, у меня тоже такая же проблема. Не могли бы вы сообщить мне, можем ли мы создать управляемый диск в Azure, а затем смонтировать этот диск в модулях. Не уверен, что мы можем подключить диск к нескольким модулям.

Subba 17.03.2021 01:26

Я столкнулся с похожей проблемой, имея 8 тыс. транзакций каждые 5 минут всего для 3 DAG. Я сократил количество транзакций до 800 каждые 5 минут, установив file_parsing_sort_mode на alphabetical.

https://airflow.apache.org/docs/apache-airflow/stable/configurations-ref.html#file-parsing-sort-mode

Значение по умолчанию для этого, то есть modified_time, заставит процессор DAG извлекать время последнего изменения файла из общей папки в каждом цикле. Как ни странно, это действие запускает даже операции записи, которые обходятся дороже, чем операции чтения.

https://github.com/apache/airflow/blob/2d79d730d7ff9d2c10a2e99a4e728eb831194a97/airflow/dag_processing/manager.py#L982-L1008

Тот же ответ опубликован на аналогичный вопрос здесь: https://stackoverflow.com/a/70524563/6654620

Другие вопросы по теме

Azure DataFactory — можем ли мы заказать источник CopyData перед приемом?
Приложение Azure Logic — сохраните ImageDataURI как изображение в службе хранилища Azure
Как отслеживать ежедневные входящие файлы данных в файлах Azure и сохранять их в базе данных SQL
Исправление для политики ограничения сети учетной записи хранения Azure
Приложение-функция с интеграцией виртуальной сети не может развернуться при настройке WEBSITE_CONTENTAZUREFILECONNECTIONSTRING на хранилище за брандмауэром
Просмотр очереди сообщений лазурного хранилища завершается сбоем с помощью python, но работает через портал
AzureStorage: серверу не удалось аутентифицировать запрос. Убедитесь, что значение заголовка Authorization сформировано правильно, включая подпись
Как скопировать всю структуру между учетными записями хранения в python
Как отфильтровать определенные значения в хранилище таблиц Azure в столбце?
Azure SDK IoT Storage без ключа учетной записи в той же среде в агенте