Пытаюсь выяснить, как экспортировать данные из HDFS, которые выводятся заданием Apache Spark Streaming. Следующая диаграмма определяет архитектуру решения:
Apache Spark выполняет задание потоковой передачи в кластере AWS EMR и сохраняет результат в HDFS. Задание потоковой передачи собирает данные один раз в час с помощью оконных функций и выполняет вычисления. Мне нужно экспортировать эти результаты в S3 и RDS, что я могу легко сделать, запустив команды S3Distcp и Sqoop, однако я хочу, чтобы они запускались ровно после завершения каждого вычисления. Я хотел бы сделать это более изящно, используя что-то еще, кроме работы cron.
Любые идеи?
Спасибо
Вы можете отправить сообщение в очередь SQS и выполнить свою работу с помощью лямбда-выражения.
Вероятно, это хорошие инструменты, на которые стоит взглянуть и исследовать. Мы не используем их, пока говорим.
А как насчет собственных компонентов Hadoop, таких как Oozie и, возможно, Airflow?