Я новичок в AWS и облачных сервисах в целом. Что я планирую делать, так это постоянно получать данные от стороннего API, который возвращает результаты в JSON за раз (по 3-5 МБ каждый) и сбрасывать результаты в корзину S3. Я хочу автоматизировать процесс, и мое решение на данный момент — запустить скрипт Python на экземпляре EC2, чтобы получить результаты и передать их в корзину S3, как я бы сделал это вручную на локальном компьютере. Это способ добиться такого сбора данных? Поскольку я новичок в этом, я хочу остаться в пределах бесплатного уровня. Заранее спасибо.





Вы не указали типичный размер ответа от API. Насколько я понимаю, это экспериментальный проект. Надеюсь, эти советы помогут:
Я не уверен, что вы уже используете s3, но также следует учитывать некоторые моменты:
Из документации: после регистрации новые клиенты AWS получают 5 ГБ хранилища Amazon S3 класса Стандарт Storage, 20 000 запросов на получение, 2000 запросов на размещение и 15 ГБ передачи данных из каждый месяц на один год.
Итак, вы, вероятно, хотите помещать объекты в s3 пакетами (я имею в виду, что один объект будет содержать несколько ответов от API). Если скрипт будет запускаться каждую секунду и отправлять объекты на s3, похоже, что 2000 бесплатных запросов на размещение являются узким местом.
Удачи :)
Спасибо за Ваш ответ! Прямо сейчас я получаю то, что хотел, запустив скрипт Python на экземпляре ec2 в фоновом режиме (nohup). Однако для этого требуется, чтобы экземпляр работал (и потреблял квоту) непрерывно, в то время как я делаю дамп данных только каждые несколько часов. Я рассматриваю решение с использованием AWS Lambda, которое не требует постоянной работы экземпляра.