У меня возникла проблема, связанная с предотвращением загрузки избыточных файлов из контейнеров в Azure в папку на локальном устройстве или на файловом сервере. Это формат данных датчика в реальном времени (.csv), который ежечасно сохраняется в лазурном контейнере больших двоичных объектов.
Я написал сценарий python для загрузки контейнера больших двоичных объектов и сохранения его в отдельной папке каждые 6 часов. Это было довольно просто. Параметры меняются внутри таблиц, но имя файла повторяется.
Может ли кто-нибудь предложить надежную технику для эффективной обработки этого потока данных?
Заранее большое спасибо.
Итак, вы хотите пропустить большие двоичные объекты, которые были загружены ранее, в следующей задаче загрузки контейнера?