у нас есть 3 машины kafka в кластере HDP
kafka01
kafka02
kafka03
kafka version - 0.10.0.2.6
каждая машина кафки (kafka03) имеет диск с 18T
а также
default.replication.factor=3
последние машины kafka теряют диск (диск неисправен, и нам нужно его заменить)
Итак, мы заменили диск, и мы снова создаем на нем файловую систему и снова создаем темы
но - как всем известно перед удалением данных кафки из тем нам нужно удалить все темы в /var/kafka/kafka-logs
и тогда безопасно заменить диск
но это не так потому что вдруг диск помялся и мы не удалили темы
на данный момент служба брокера kafka через некоторое время остановилась, и мы думаем, что это связано с тем, что темы, которые не удаляются перед заменой диска
какие-либо предложения по этому делу?
пример как удалить тему - PlR_TGE_FDS (что мы не сделали) и еще 23 темы которые не удалили
/usr/hdp/current/kafka-broker/bin/kafka-topics.sh --zookeeper zookeper_server01:2181 --delete --topic PlR_TGE_FDS
Используете ли вы один диск для каждого брокера в вашем кластере?
В случае сбоя диска брокер Kafka должен обнаружить его и завершить работу. После того, как вы замените сбойный диск, просто снова запустите своего брокера, и он должен реплицировать все данные с других брокеров, а затем вернуть себе лидерство.
Я так и не понял, зачем удалять тему при выходе из строя диска, при чем здесь коэффициент репликации? я что-то упускаю?
[1] Как обрабатывать сбои диска в Kafka? - Хортонворкс
[2] Диски и файловая система — Документация Kafka