Поведение данных Kafka при создании раздела

Я тестирую добавление разделов Kafka в работающую систему, но мне не ясно, как Kafka управляет существующими данными, если вы добавляете разделы в существующую тему.

Например:

У меня есть экземпляр Kafka с темой test с 1 разделом и 1 репликой.
Группа производителей начинает вставлять в эту тему, а группа потребителей начинает потреблять.
Изменяю тему, чтобы добавить еще один раздел.

Что в этом случае происходит с данными темы? Произведена ли перебалансировка между обоими разделами или новый раздел будет использоваться только для новых произведенных данных?

apache-kafka

12.04.2018 14:53

Построение конвейеров данных в реальном времени с Apache Kafka: Руководство по Python

Apache Kafka - популярная платформа распределенной потоковой передачи данных, которую можно использовать для построения конвейеров данных в реальном...

555

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Добавление разделов не меняет разделение существующих данных, в этом отношении оно основано на философии "только добавление". Например, если данные разделены хешем (ключом)% number_of_partitions, тогда это разделение потенциально будет перетасовано путем добавления разделов, kafka не будет пытаться сбалансировать / перераспределить его.

Итак, существует ли идиоматический способ (1) добавления разделов и (2) обеспечения сохранения порядка? Сообщение m1 с ключом k1 отправляется в раздел p2. После добавления раздела сообщение m2 с ключом k1 отображается на раздел p3. Таким образом, потребитель может читать m2 первый из p3 и только тогда m1 из p2.

— 27.07.2020 18:53

12.04.2018 15:26

Добавление раздела не вызывает перераспределения данных, которые уже находятся в разделах текущей темы. В новый раздел будут отправлены только новые созданные данные, и вы должны учитывать следующую проблему при добавлении нового раздела ... Если вы используете разделитель по умолчанию и отправляете сообщения с помощью ключа, он работает следующим образом: hash (key)% number_partitions. Kafka гарантирует, что сообщения с одним и тем же ключом попадают в одни и те же разделы, но это не так, когда вы добавляете раздел, потому что в предыдущей формуле number_partitions изменяется, поэтому сообщение с ключом = k1, которое перед добавлением раздела перешло, например, в раздел 0, теперь можно было перейти в раздел 1 (из-за нового раздела).

13.04.2018 08:41

Другие вопросы по теме

Как проверить мою потоковую передачу pyspark без искры и среды kafka

Производителю требуется больше времени, чтобы выбросить исключение в случае отказа брокера kafka

Нужно ли мне настраивать Load Ba-lancer для настройки 5-узлового кластера Kafka на виртуальной машине Linux RHEL7.5

Создание производителя Kafka в .NET путем передачи сообщения

Когда ConsumerRecord "потребляется"

Использование Kafka для пакетной рассылки писем

Kafka multi site cluster - инструмент для создания зеркал

Как переопределить значение Log4j из сценария оболочки?

Kafka Streams: Группировка по ключу в журнале Json

Kafka не может опубликовать сообщение, когда какой-либо узел в кластере из 3 узлов не работает

Поведение данных Kafka при создании раздела

Ответы 2

Другие вопросы по теме

Похожие вопросы