Какой менеджер кластера используется в Databricks? Как изменить количество исполнителей в кластерах Databricks?

Какой диспетчер кластеров используется в Databricks? Как изменить количество исполнителей в кластерах Databricks?

Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
5
0
2 359
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

What is the cluster manager used in Databricks?

Azure Databricks опирается на возможности Spark, предоставляя облачная платформа с нулевым управлением, который включает:

  • Полностью управляемые кластеры Spark
  • Интерактивное рабочее пространство для исследования и визуализации
  • Платформа для поддержки ваших любимых приложений на базе Spark

Среда выполнения Databricks построена на основе Apache Spark и изначально создана для облака Azure.

С параметром Бессерверный Azure Databricks полностью абстрагируется от сложности инфраструктуры и необходимости в специальных знаниях для установки и настройки вашей инфраструктуры данных. Бессерверный вариант помогает специалистам по данным быстро выполнять итерации в команде.

Для инженеров данных, которые заботятся о производительности производственных заданий, Azure Databricks предоставляет механизм Spark, который работает быстрее и производительнее благодаря различным оптимизациям на уровне ввода-вывода и уровне обработки (Databricks I/O).

How do I change the number of executors in Databricks clusters ?

При создании кластера вы можете указать либо фиксированное количество воркеров для кластера, либо указать минимальное и максимальное количество воркеров для кластера.

При предоставлении кластера фиксированного размера: Azure Databricks гарантирует наличие в кластере указанного количества рабочих процессов. Когда вы указываете диапазон количества рабочих, Databricks выбирает соответствующее количество рабочих, необходимое для выполнения вашего задания. Это называется автомасштабированием.

С автомасштабированием: Azure Databricks динамически перераспределяет работников с учетом характеристик вашей работы. Некоторые части вашего конвейера могут требовать больше вычислительных ресурсов, чем другие, и Databricks автоматически добавляет дополнительных рабочих на этих этапах вашей работы (и удаляет их, когда они больше не нужны).

Автомасштабирование упрощает достижение высокой степени использования кластера, поскольку вам не нужно выделять кластер в соответствии с рабочей нагрузкой. Это особенно относится к рабочим нагрузкам, требования к которым со временем меняются (например, изучение набора данных в течение дня), но также может применяться к однократно более коротким рабочим нагрузкам, требования к подготовке которых неизвестны. Таким образом, автомасштабирование предлагает два преимущества:

  • Рабочие нагрузки могут выполняться быстрее по сравнению с недостаточно выделенным кластером постоянного размера.
  • Кластеры с автоматическим масштабированием могут снизить общие затраты по сравнению с кластером статического размера.

Примечание: В зависимости от постоянного размера кластера и рабочей нагрузки автоматическое масштабирование дает вам одно или оба этих преимущества одновременно. Размер кластера может стать меньше минимального количества рабочих процессов, выбранных, когда облачный провайдер завершает работу экземпляров. В этом случае Azure Databricks постоянно пытается повторно подготовить экземпляры, чтобы поддерживать минимальное количество рабочих процессов.

Автомасштабирование кластера недоступно для заданий с отправкой по искре. Дополнительные сведения об автомасштабировании см. в статье Автомасштабирование кластера.

Надеюсь это поможет.

Тем не менее, вопрос по-прежнему интересен с точки зрения «за капотом». В какой-то момент @CHEEKATLAPRADEEP-MSFT был задействован в качестве менеджера кластера. Сомневаюсь, что они переписали всю логику распределения ресурсов. Spark уже имеет логику динамического распределения ресурсов в своем источнике, поэтому я предполагаю, что они адаптировали ее для «управляемого» использования облачного кластера.

Mehdi LAMRANI 14.08.2020 12:39

Итак, какой менеджер кластера используется в Databricks?

Shawn Guo 03.12.2020 04:37

Не совсем понимаю, этот ответ принят как правильный. Он НЕ отвечает на вопрос «Какой диспетчер кластеров используется в Databricks?»

fuyi 11.08.2021 22:34

Чтобы ответить на вопрос:

What is the cluster manager used in Databricks?

Я пытаюсь выкопать эту информацию, но я не смог найти никакой информации об этом в официальных документах.

Похоже, Databricks не использует ни один из диспетчеров кластеров из Spark, упомянутых здесь.

Согласно эта презентация, на странице 23 упоминаются 3 части диспетчера кластера Databricks.

  • Диспетчер экземпляров
  • Менеджер ресурсов
  • Менеджер кластера Spark

Поэтому я предполагаю, что Databricks использует собственный менеджер кластера.

Я очень надеюсь, что databricks когда-нибудь опубликует эту информацию.

soMuchToLearnAndShare 07.11.2021 12:57

Другие вопросы по теме