Определение в документах:
org.apache.spark.streaming.kafka
Class KafkaUtils
static JavaPairReceiverInputDStream<String,String> createStream(JavaStreamingContext jssc, String zkQuorum, String groupId, java.util.Map<String,Integer> topics)
Create an input stream that pulls messages from Kafka Brokers.
Почему темы представляют собой карту (а не массив строк)?
Я так понимаю, строковый ключ - это название темы. Но как насчет целочисленного значения? Что я должен заполнить?




Прочтите Javadoc:
public static JavaPairReceiverInputDStream createStream(JavaStreamingContext jssc, String zkQuorum, String groupId, java.util.Map topics)
Create an input stream that pulls messages from Kafka Brokers. Storage level of the data will be the default StorageLevel.MEMORY_AND_DISK_SER_2.
Parameters: jssc - JavaStreamingContext object
zkQuorum - Zookeeper quorum (hostname:port,hostname:port,..)
groupId - The group id for this consumer
topics - Map of (topic_name -> numPartitions) to consume. Each partition is consumed in its own thread
Returns: DStream of (Kafka message key, Kafka message value)
Значение Map — это количество разделов данного имени темы, которое определяет количество потоков, которые будут использоваться для использования темы.
Из Javadoc: https://spark.apache.org/docs/1.3.0/api/java/index.html?org/apache/spark/streaming/kafka/KafkaUtils.html
темы — карта (topic_name -> numPartitions) для использования. Каждый раздел потребляется в своем собственном потоке
поэтому каждое число - это количество разделов, которые вы хотите использовать для этой темы.
Если вы посмотрите документацию метода createStreamKafkaUtilsздесь, вы увидите
topics - Map of (topic_name -> numPartitions) to consume. Each partition is consumed in its own thread
Целое значение — это количество разделов для темы как часть ключа на карте.