Запросы, связанные с Kafka с Apache Atlas

Я работаю над вариантом использования, когда мне нужно импортировать внешние метаданные темы Kafka в атлас apache. У меня есть несколько уточняющих вопросов, которые перечислены ниже:

  1. Можно ли импортировать метаданные темы из внешнего Kafka, который не используется для уведомления атласа? Если возможно, то как?
  2. Как сделать так, чтобы метаданные Kafka обновлялись автоматически, как Hive или Hbase, вместо того, чтобы каждый раз запускать скрипт импорта вручную?
  3. Нет данных о происхождении для импортированных тем. В каких случаях собираются данные о происхождении темы?
  4. Поскольку существует только одна связанная с Kafka сущность "kafka_topic", не будет ли вообще никаких данных о взаимосвязи?
  5. В каких случаях проводился аудит по темам?

Удалось ли вам настроить внешнюю кафку в атлас. Я пытаюсь сделать то же самое. Любые предложения будут очень полезны.

Jithesh Gopinathan 06.10.2020 05:13
Построение конвейеров данных в реальном времени с Apache Kafka: Руководство по Python
Построение конвейеров данных в реальном времени с Apache Kafka: Руководство по Python
Apache Kafka - популярная платформа распределенной потоковой передачи данных, которую можно использовать для построения конвейеров данных в реальном...
2
1
564
1

Ответы 1

Я также работаю над чем-то похожим по внешней теме Kafka и Атласу, и у меня почти такие же вопросы.

Что касается вашего третьего вопроса, я думаю, что отчасти причина того, что нет графа происхождения тем Kafka, заключается в том, что Kafka - это просто шина обмена сообщениями. Сообщения Kafka неизменяемы, поэтому нет DML, такого как HBase или Hive, хотя в HBase таблицы обновляются по «версии» с одним и тем же ключом строки.

В каждой теме Kafka есть настройка периода хранения, по умолчанию 7 дней, в течение которой, независимо от того, были ли использованы просроченные сообщения темы или нет, просроченные сообщения будут удалены из журнала. Исходя из этого, мало смысла отслеживать "удаленные" сообщения.

В конце концов, основная роль Kafka - средство обмена сообщениями для доставки сообщений от источника к месту назначения. Он может временно кэшировать сообщения, но это не то же самое, что база данных. Я не очень уверен в использовании транспортной компании для работы на складе.

Другие вопросы по теме