У нас есть кворум zookeeper (3 узла) и 3 брокера kafka. Производители не могут отправить запись в кафку --- потеря данных. Во время расследования мы (все еще можем) SSH к этому брокеру и обнаружили, что диск брокера заполнен. Мы удалили журналы тем, чтобы освободить место на диске, и брокер снова заработал как положено.
Учитывая, что мы все еще можем подключиться к этому брокеру по SSH (сейчас мы не можем видеть журналы), но я предполагаю, что зоопарк может слышать сердцебиение этого брокера и не считает его отключенным? Как лучше всего обрабатывать такие события?

Лучше всего не допускать этого!
Вам необходимо отслеживать использование диска вашими брокерами и заранее получать оповещения на случай, если доступное место на диске закончится.
Вам необходимо установить ограничения хранения для темы, чтобы обеспечить регулярное удаление данных.
Вы также можете использовать политики тем (см. create.topic.policy.class.name), чтобы контролировать, сколько времени/размера разрешено хранить при создании/обновлении тем, чтобы гарантировать, что темы не смогут заполнить ваш диск.
Шаги восстановления, которые вы сделали, в порядке, но вы действительно не хотите заполнять диски, чтобы поддерживать высокую доступность вашего кластера.
Спасибо за это. Убедительно ли мое предположение? ..zk может все еще биться сердце того брокера с переполненным диском, ни один лидер не был переизбран = потеря данных?