Предположим, у меня есть двухчасовое окно, которое начинается каждую минуту. Следующим шагом будет применение преобразования GroupBy.
Содержит ли он копии перекрывающихся данных для каждого окна отдельно в памяти? Или у Apache Beam есть логика, чтобы знать, что запись A принадлежит нескольким окнам?
Буду признателен за это объяснение. Не удалось найти релевантную информацию
Это деталь реализации, которая не должна наблюдаться (или наблюдаться) авторами конвейера. Луч / бегун потенциально может решить объединить несколько преобразований и сохранить и повторно использовать элементы в памяти. Или не.
Я не знаю, охвачена ли эта конкретная тема, но есть несколько слов о неизменности элементов в конце Раздел ParDo
в руководстве по программированию. Общее описание модели исполнения Beam - здесь.