Как интерпретировать метрику количества активных записей из исходной задачи kafka connect?

У меня есть коннектор исходной задачи kafka connect (коннектор jdbc postgres), и я могу просматривать метрику kafka_connect_source_task_source_record_active_count_avg из этого коннектора. Отмечу, что график выглядит так:

Итак, мы видим случайные шаги по 100 записей. Если я изменю метрику с _avg на max, действительно, шаги будут иметь размер 100.

Однако я не уверен, как интерпретировать эту информацию. Означает ли это, что прямо сейчас (конец диаграммы) существует более 1100 записей, которые не были зафиксированы в кафке, и они были такими в течение нескольких недель? Мне интересно, почему это значение не уменьшается. Коннектор находится в очень активной базе данных, поэтому меня не удивит, если он всегда «отстает» (это правильное слово?). Но я хотел бы знать, по крайней мере, всегда ли он работает через заднюю часть сообщений, или он «накапливает» определенные сообщения, которые никогда не фиксируются в кафке по той или иной причине, и отражает ли это число эти «застрявшие» Сообщения.

Построение конвейеров данных в реальном времени с Apache Kafka: Руководство по Python
Построение конвейеров данных в реальном времени с Apache Kafka: Руководство по Python
Apache Kafka - популярная платформа распределенной потоковой передачи данных, которую можно использовать для построения конвейеров данных в реальном...
0
0
249
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

исходная-запись-активный-количество

:Самое последнее количество записей, созданных этой задачей, но еще не полностью записанных в Kafka.

https://cwiki.apache.org/confluence/display/KAFKA/KIP-196%3A+Add+metrics+to+Kafka+Connect+framework#KIP196:AddmetricstoKafkaConnectframework-SourceTaskMetrics

Вы также можете построить смещения темы, которую вы создаете, чтобы увидеть, следуют ли они тем же шагам увеличения.

Альтернативой может быть использование Debezium, а не исходного кода JDBC.

Я хотел бы знать, были ли ~ 1000 сообщений, которые не были написаны, одними и теми же сообщениями в течение последних 2 недель, или это просто постоянное отставание. Это проблема, если есть 1000 старых застрявших сообщений, но это нормально, если просто всегда есть отставание, и если кафка работает через них. Есть ли способ проверить это? Будут ли смещения графика показывать мне эту информацию?

swagrov 18.12.2020 17:46

Не уверен, что вы сможете получить эту информацию без чего-то вроде дампа кучи процесса соединителя.

OneCricketeer 18.12.2020 21:56

Другие вопросы по теме