У нас есть мишень HIVE с хранилищем Parquet. Задания Informatica BDM настроены на использование искры в качестве механизма выполнения для загрузки данных в цель HIVE.
Мы заметили, что существует около 2000 файлов частей, которые были сгенерированы внутри раздела в HDFS. Такое поведение повлияет на производительность HIVE.
Есть ли альтернатива тому же?
Размер входного файла всего 12 МБ.
Размер блока 128 МБ
С уважением, Шридар Венкатесан
Informatica использует Spark в качестве механизма выполнения, то есть использует Spark в качестве фреймворка для загрузки данных в целевой Hive. то, что я хотел бы, это то, что это поведение искры для создания многих файлов частей в разделе
Я знаю, но они могли бы справиться лучше. Они утверждают, что позвольте нам справиться с этим.
Я мог видеть что-то, как показано ниже: Общее количество входных путей для обработки: 2000
Есть ли способ справиться с этим? Установка какого-либо свойства времени выполнения?
Мне нужно знать о варианте использования.
@thebluephantom: Извините за дополнительные вопросы. Как вы думаете, что заставило движок Spark, сконфигурированный в Informatica, генерировать 2000 файлов?
Сложно комментировать, так как дни моей работы с информатикой остались позади. Я просто знаю от других, что продукт не предназначен для больших данных.
@SridarV Можете ли вы добавить подробности о его работе. Что это за запрос на вставку и т. д.? Пример команды должен быть полезен.
Похоже, проблема была в команде spark.sql.shuffle.partitions, для которой было установлено значение 2000
Основная причина была связана с spark.sql.shuffle.partitions
Вам нужно установить spark.sql.shuffle.partitions = 1 Таким образом, он не будет разбивать файл на несколько файлов разделов. Это также работает с файлами огромного размера.
Не лучший плагин для Informatica. Используйте Spark.