ИСКРА | Создание слишком большого количества файлов деталей

У нас есть мишень HIVE с хранилищем Parquet. Задания Informatica BDM настроены на использование искры в качестве механизма выполнения для загрузки данных в цель HIVE.

Мы заметили, что существует около 2000 файлов частей, которые были сгенерированы внутри раздела в HDFS. Такое поведение повлияет на производительность HIVE.

Есть ли альтернатива тому же?

Размер входного файла всего 12 МБ.

Размер блока 128 МБ

С уважением, Шридар Венкатесан

Не лучший плагин для Informatica. Используйте Spark.

thebluephantom 13.09.2018 01:03

Informatica использует Spark в качестве механизма выполнения, то есть использует Spark в качестве фреймворка для загрузки данных в целевой Hive. то, что я хотел бы, это то, что это поведение искры для создания многих файлов частей в разделе

Sridar V 13.09.2018 01:25

Я знаю, но они могли бы справиться лучше. Они утверждают, что позвольте нам справиться с этим.

thebluephantom 13.09.2018 01:26

Я мог видеть что-то, как показано ниже: Общее количество входных путей для обработки: 2000

Sridar V 13.09.2018 01:29

Есть ли способ справиться с этим? Установка какого-либо свойства времени выполнения?

Sridar V 13.09.2018 01:31

Мне нужно знать о варианте использования.

thebluephantom 13.09.2018 01:33

@thebluephantom: Извините за дополнительные вопросы. Как вы думаете, что заставило движок Spark, сконфигурированный в Informatica, генерировать 2000 файлов?

Sridar V 13.09.2018 01:34

Сложно комментировать, так как дни моей работы с информатикой остались позади. Я просто знаю от других, что продукт не предназначен для больших данных.

thebluephantom 13.09.2018 01:37

@SridarV Можете ли вы добавить подробности о его работе. Что это за запрос на вставку и т. д.? Пример команды должен быть полезен.

moriarty007 13.09.2018 08:44

Похоже, проблема была в команде spark.sql.shuffle.partitions, для которой было установлено значение 2000

Sridar V 15.09.2018 01:40
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
10
286
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Основная причина была связана с spark.sql.shuffle.partitions

Вам нужно установить spark.sql.shuffle.partitions = 1 Таким образом, он не будет разбивать файл на несколько файлов разделов. Это также работает с файлами огромного размера.

Другие вопросы по теме