Я использую Kinesis Firehose для сжатия и сохранения событий в S3. Формат префикса - ГГГГ / ММ / ДД / ЧЧ по времени UTC. Эти события, отправленные в Firehose, также содержат время в формате UTC в виде поля. Используя это поле, я обнаружил, что объекты YYYY / MM / DD / HH из S3 содержат события также из предыдущего и следующего часа.
Пределы буфера, которые я использую, составляют 128 МБ / 600 с.
Знаете ли вы, являются ли это жесткими ограничениями или существует ли возможность вывести события за пределы этих ограничений?





Я ожидал, что будет возможно, что вы получите события, выходящие за рамки установленных ограничений. Например, если Firehose прочитает на несколько записей больше, чем размер буфера, он, вероятно, не перенесет их в следующий буфер. Но я не могу этого сказать точно.
Что более важно для вашего варианта использования, Firehose запишет буфер при достижении либо этих пределов, а затем начнет заново. Таким образом, если вы получите 128 МБ за 373 секунды, он не будет ждать 227 секунд перед записью этого буфера. Если это произойдет, вы увидите более 6 объектов S3 в час.
Также вполне возможно, что записи не были записаны в поток сразу из-за ограничения пропускной способности. В зависимости от того, как вы обрабатываете повторные попытки, вы можете увидеть задержки в несколько секунд.
Спасибо за Ваш ответ. Я изучил мониторинг потока кинезиса, и все показатели выходят за рамки установленных ограничений. Я должен глубже погрузиться в этот вопрос.