Концепции Apache Spark + Delta Lake

У меня много сомнений по поводу Spark+Delta. Концепции Apache Spark + Delta Lake

1) Databricks предлагает 3 слоя (бронза, серебро, золото), но какой слой рекомендуется использовать для машинного обучения и почему? Я предполагаю, что они предлагают иметь чистые и готовые данные в золотом слое.

2) Если мы Аннотация рассмотрим концепции этих трех уровней, можем ли мы рассматривать бронзовый слой как озеро данных, серебряный слой как базы данных и золотой слой как хранилище данных? Я имею в виду с точки зрения функциональности, .

3) Дельта-архитектура — это коммерческий термин, эволюция каппа-архитектуры или новая трендовая архитектура, такая как лямбда- и каппа-архитектура? В чем разница между архитектурой Delta + Lambda и архитектурой Kappa?

4) Во многих случаях Delta + Spark масштабируется намного больше, чем большинство баз данных, обычно намного дешевле, и если мы все настроим правильно, мы можем получить почти в 2 раза более быстрые результаты запросов. Я знаю, что довольно сложно сравнивать фактические хранилища трендовых данных с хранилищем данных Feature/Agg, но я хотел бы знать, как я могу провести это сравнение?

5) Раньше я использовал Kafka, Kinesis или Event Hub для потокового процесса, и мой вопрос в том, какие проблемы могут возникнуть, если мы заменим эти инструменты таблицей Delta Lake (я уже знаю, что все зависит от многих вещей, но я хотелось бы иметь общее представление об этом).

Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
22
0
6 859
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

1) Оставьте это на усмотрение специалистов по данным. Им должно быть удобно работать в регионах серебра и золота, некоторые более продвинутые специалисты по данным захотят вернуться к необработанным данным и проанализировать дополнительную информацию, которая, возможно, не была включена в таблицы серебра/золота.

2) Бронза = необработанные данные в собственном формате/формате дельта-озера. Серебряный = обработанные и очищенные данные в озере дельты. Золото = данные, доступ к которым осуществляется через дельта-озеро или которые помещаются в хранилище данных, в зависимости от бизнес-требований.

3) Дельта-архитектура — это упрощенная версия лямбда-архитектуры. На данный момент дельта-архитектура является коммерческим термином, посмотрим, изменится ли это в будущем.

4) Delta Lake + Spark — самый масштабируемый механизм хранения данных по разумной цене. Вы можете протестировать производительность в соответствии с вашими бизнес-требованиями. Озеро Дельта будет намного дешевле, чем любое хранилище данных для хранения. Ваши требования к доступу к данным и задержке будут более важным вопросом.

5) Kafka, Kinesis или Eventhub — это источники для получения данных с периферии в озеро данных. Озеро Дельта может выступать в качестве источника и стока для потокового приложения. На самом деле очень мало проблем с использованием дельты в качестве источника. Источник дельта-озера находится в хранилище больших двоичных объектов, поэтому мы на самом деле обходим многие проблемы, связанные с инфраструктурой, но добавляем проблемы согласованности хранилища больших двоичных объектов. Озеро дельты как источник потоковых заданий гораздо более масштабируемо, чем концентратор kafka/kinesis/event, но вам все равно нужны эти инструменты для передачи данных с периферии в озеро дельты.

В чем разница между Kappa и Delta Architecture? Есть ли у вас представление о том, какие требования к доступу к данным и задержке я могу изучить для сравнения? Почему нам все еще нужны такие инструменты, как kafka/kinesis/event hub?

Eric Gabriel Bellet Locker 20.05.2019 09:07

Я не использовал архитектуру Kappa, поэтому не имею права высказывать мнение. Архитектура Delta позволяет выполнять потоковую передачу, пакетную передачу или и то, и другое. Причина для Kafka/Kinesis/Event Hub заключается в том, что вам обычно нужна некоторая гибкая очередь сообщений для отправки данных от производителей данных (например, вашего мобильного телефона) в какую-то шину/концентратор событий перед их приемом.

Joe Widen 21.05.2019 16:16

В 5) вы говорили о проблемах согласованности, а в документации Delta Lake говорится, что они предлагают ACID (согласованность), так что это неправда?

Eric Bellet 28.05.2019 18:23

Это отдельные. Существует конечная согласованность в хранилище BLOB-объектов. И есть согласованность при чтении/записи данных. Delta Lake в настоящее время готово только для hdfs. Дополнительные сведения см. в требованиях к базовым системам хранения: github.com/дельта-ио/дельта.

Joe Widen 31.05.2019 02:18

Delta Lake выпустила версию 0.2.0, которая поддерживает облачные хранилища Amazon S3 и Azure Blob Storage с улучшенным параллелизмом.

pushpavanthar 21.06.2019 08:26

Как добавить дату из золотой таблицы в Azure SQL. Что касается вставки новых записей, это можно сделать с помощью bulkCopyToSqlDB. Но как вы относитесь к обновлениям?

reachify 16.03.2020 11:52

Я хотел бы знать, как быстро будут развернуты блоки данных и версии с открытым исходным кодом с функциями ОПТИМИЗАЦИИ?

Cristián Vargas Acevedo 09.09.2020 02:11
  1. Таблицы с медальонами — это рекомендация, основанная на том, как наши клиенты используют озеро Дельта. Вам не нужно точно следовать ему; тем не менее, это хорошо согласуется с тем, как люди проектируют EDW. Что касается машинного обучения и какой таблицы использовать. Это будет выбор людей, занимающихся машинным обучением. Некоторые могут захотеть получить доступ к таблицам Bronze, потому что это необработанные данные, с ними ничего не делалось. Другим может понадобиться Серебряный стол, потому что он считается чистым, хотя и дополненным. Обычно таблицы Gold отличаются высокой точностью и специфичностью, чтобы отвечать на четко определенные бизнес-вопросы.

  2. Не совсем. Таблицы Bronze представляют собой необработанные данные о событиях, например. одна строка на событие или измерение и т. д. Серебряные таблицы также относятся к уровню событий/измерений, но они очень усовершенствованы и готовы к запросам, отчетам, информационным панелям и т. д. Золотая таблица может быть таблицами фактов и измерений, агрегированными таблицами. или тщательно подобранные наборы данных. Важно помнить, что Delta не предназначена для использования в качестве транснациональной системы OLTP. Он действительно предназначен для рабочих нагрузок OLAP.

  3. Архитектура Delta — это название, которое мы дали конкретной реализации Delta Lake. Это не коммерческий термин как таковой, но, надеюсь, он им станет. Существует достаточно информации, чтобы сравнить и сопоставить архитектуры Kappa и Lambda. Архитектура Delta хорошо описана в документации Delta и в блогах Databricks, технических докладах, видео на YouTube и т. д.

  4. Я бы спросил, что именно вы хотите сравнить? Скорость, функции, продукты, ...?

  5. Delta Lake не пытается заменить какие-либо системы публикации/подписки обмена сообщениями, у них разные сценарии использования. Delta Lake может подключаться к каждому упомянутому вами продукту как в качестве подписчика, так и в качестве издателя. Не забывайте, что Delta Lake — это открытый уровень хранения, обеспечивающий транзакции, совместимые с ACID, высокую производительность и высокую надежность для озер данных.

Луи.

Я хотел бы знать, как быстро будут развернуты версии блоков данных с функциями ОПТИМИЗАЦИИ?

Cristián Vargas Acevedo 09.09.2020 02:12

Что вы подразумеваете под «... развертыванием с функциями оптимизации?»

Big Lou 01.11.2020 19:28

Большой Лу, docs.databricks.com/delta/optimizations/file-mgmt.html

Cristián Vargas Acevedo 04.11.2020 15:54

Кристиан, время, необходимое для запуска процесса оптимизации (сжатия), зависит от нескольких факторов: 1. Общий размер оптимизируемых данных, 2. Количество сжимаемых дельта-файлов и 3. Размер и структура кластер, на котором выполняется оптимизация.

Big Lou 05.11.2020 18:39

Другие вопросы по теме