Я создал кластер ECS и развернул задачу с двумя контейнерами с помощью службы (во время создания службы я связываю с ней балансировщик нагрузки приложения, используя целевую группу типа IP), это работает нормально (я могу получить доступ к своему URL-адресу DNS, и он загружается как положено).
Сейчас я пытаюсь использовать AutoScalingGroup для автоматического масштабирования экземпляров (автомасштабирование кластера) в зависимости от загрузки ЦП.
Я создал ASG (желаемое количество экземпляров = 1, максимальное = 4), но теперь нужно создать политику динамического масштабирования, основанную на загрузке ЦП.
Если средняя загрузка ЦП экземпляра превышает 50 %, я хочу, чтобы ASG добавил больше экземпляров, используя простое масштабирование. (и если использование ave упадет ниже 40, снова уменьшите до желаемого минимального значения).
Когда я нажимаю «Создать сигнал тревоги Cloudwatch», я получаю следующее: Шаг 1 (затем я нажимаю «Выбрать метрику»):
По сути, мой вопрос заключается в следующем: какую метрику мне нужно выбрать, чтобы добиться вышеуказанного масштабирования использования ЦП?
Обновление: ОК, спасибо, Марк, я добавил этот будильник. Служба работает (с тревогой ASG + автомасштабирования, установленной на увеличение экземпляра на 1, когда количество процессоров превышает 50), я получаю доступ к своей конечной точке (работает нормально, это демонстрационное приложение для загрузки ЦП, которое в основном запускает последовательность Фибоначчи, n = 5 работает нормально ):
Когда я устанавливаю n=60 (большая нагрузка на процессор!), я получаю следующее: -app/url аварийно завершает работу с тайм-аутом шлюза 504. Он никогда не восстанавливается (даже если закрыть его и открыть новые вкладки) -Метрики использования ЦП в кластере:
Хорошо, мой сигнал тревоги был в состоянии «недостаточно данных» (а не в состоянии «В тревоге»), что странно (настройте его на использование отсутствующих данных = нарушение, теперь он срабатывает):
Теперь ASG, по крайней мере, пытается что-то сделать, но обнаруживает новую странную ошибку:
Почему конкретный тип экземпляра недоступен в зоне доступности (но доступен в других... кажется, не имеет смысла)
Хорошо, я удалил eu-west-1a из шаблона запуска ASG, и теперь что-то происходит (создаются экземпляры):
но мои задачи в моем кластере остаются на уровне 1 (и URL-адрес приложения по-прежнему не отвечает):





В консоли метрик нажмите ECS, затем нажмите ClusterName, ServiceName, затем выберите в списке метрику, которая содержит имя вашего кластера, имя службы, а также имя метрики CPUUtilization.