Иногда, когда я хочу запустить задание ETL в AWS Glue, оно запускается немедленно. Но довольно часто у меня случается, что до того, как задание ETL что-то делает, проходит несколько минут - я ничего не вижу в журналах, только «ожидающее выполнение». Могу ли я как-то повлиять на это в конфигурации? Или это полностью зависит от AWS, когда она начнет работу?
Помимо комментария @ j.b.gorski, журналы не всегда могут быть полностью сброшены в CloudWatch до некоторого времени после завершения задания ETL.
@Kyle, я сомневаюсь, что в моем случае я постоянно обновляю ведро s3, в которое я пишу данные с помощью задания Glue, и я ничего не вижу в течение нескольких минут, когда он говорит «ожидает выполнения»
Я знаю, что это старая ветка, но недавно я испытал те же симптомы. Вам нужно будет подтвердить, была ли причина такой же. Первоначально я создал задание по перемещению данных из озера данных в базу данных с красным смещением. Когда задание было создано, оно имело соединение с красным смещением в качестве необходимого ресурса, но кажется, что клей не смог получить этот ресурс до запуска задания, поэтому задание будет терпеть неудачу до того, как оно начнется каждый раз ... без журналов.
Я удалил соединение как требование для работы, отредактировав задание с консоли. (Действие-> Изменить задание-> Требуемые соединения -> «X»)
После того, как я удалил требование, работа прошла нормально. Мне потребовалось много времени, чтобы понять это. Надеюсь, это поможет кому-нибудь еще столкнуться с тем же сценарием.
Возможный дубликат Работа с AWS Glue занимает много времени