Каков отраслевой стандарт метода дедупликации в потоках данных?

Таким образом, дедупликация является одним из основных и внедрённых методов очистки данных.

Есть несколько способов сделать это в потоке данных.

Как и я, выполняю дедупликацию с помощью агрегатного преобразования, где я помещаю ключевые столбцы (рассмотрите «Имя» и «Фамилия» как столбцы), которые должны быть уникальными в Группе по, и шаблон столбца, такой как имя! = «Имя» && имя! = 'Фамилия' $$ _____first($$) в сводной вкладке.

Проблема с этим методом заключается в том, что если у нас есть в общей сложности 200 столбцов из 300 столбцов, которые следует рассматривать как уникальные столбцы, очень утомительно включать 200 столбцов в мой шаблон столбца.

Может ли кто-нибудь предложить лучший и оптимизированный процесс дедупликации в потоке данных в соответствии с вышеуказанной ситуацией?

Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM
Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM
В предыдущей статье мы завершили установку базы данных, для тех, кто не знает.
Как установить LAMP Stack 1/2 на Azure Linux VM
Как установить LAMP Stack 1/2 на Azure Linux VM
В дополнение к нашему предыдущему сообщению о намерении Azure прекратить поддержку Azure Database для MySQL в качестве единого сервера после 16...
0
0
75
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я попытался воспроизвести процесс дедупликации с помощью потока данных. Ниже подход.

  • Список столбцов, по которым необходимо сгруппировать, указан в параметрах потока данных. В этом репродукции даны три столбца. Это может быть расширено в соответствии с требованиями.
Parameter Name: Par1
Type: String
Default value: 'col1,col2,col3'

  • Источник взят как на изображении ниже. (Группировать по столбцам: col1, col2, col3; Совокупный столбец: col4)

  • Затем выполняется агрегатное преобразование и группируется по, sha2(256,byNames(split($Par1,','))) указан в столбцах и называется groupbycolumn

  • В агрегатах + добавьте шаблон столбца рядом с столбцом 1, а затем удалите столбец 1. Затем введите true() в соответствующем условии. Затем щелкните неопределенное выражение столбца и введите $$ в выражении имени столбца и first($$) в выражении значения. gif31

Вывод функции агрегации

Данные группируются по col1, col2 и col3, и первое значение col4 берется для каждой комбинации col1, col2 и col3.

  • Затем, используя преобразование выбора, можно удалить groupbycolumn из приведенного выше вывода перед копированием в приемник.

Ссылка: **документ MS** в Сценарий сопоставления потока данных — Фабрика данных Azure | Обучение Майкрософт

Так что в любом случае нам нужно добавить имена столбцов вручную в параметр. Можем ли мы получить те, которые динамически заполняются в параметре ???

Surya Teja532 20.11.2022 10:58

Вы хотите сгруппировать по всем столбцам? или сгруппировать только по нескольким столбцам из общего числа столбцов?

Aswin 20.11.2022 11:52

1) Если вы хотите брать только несколько столбцов для группировки по столбцам, то да, вам нужно вручную добавить столбцы в параметры, а затем передать это в Группировку по столбцам. 2) Если хотите сгруппировать по всем столбцам, то в настройках группировки введите этот sha2(256,columns())

Aswin 20.11.2022 12:22

Другие вопросы по теме

Как снова использовать вновь созданный столбец в преобразовании производного столбца в том же преобразовании производного столбца?
Как проверить, пусты ли файлы в каталоге озера данных с помощью Фабрики данных Azure?
Azure Databricks: непредвиденный сбой при ожидании готовности кластера. Причина Кластер непригоден для использования, так как драйвер неисправен
Выражение фабрики данных Azure
Как скопировать данные из действия «Добавить переменную» в CSV-файл с помощью Фабрики данных Azure
Добавление, созданное при копировании данных из SQL в Azure Data Lake 2-го поколения
Обработка исключений для действия копирования в фабрике данных Azure
Как создать карту "ключ-значение" с выражением конвейера (не с выражением потока данных) в фабрике данных Azure (Synapse Studio)
DnsResolutionFailure, когда Фабрика данных Azure пытается получить доступ к файловому серверу после обновления локальной среды выполнения интеграции
Как сохранить результат веб-активности в переменной?

Похожие вопросы

Как снова использовать вновь созданный столбец в преобразовании производного столбца в том же преобразовании производного столбца?
Можно ли запустить Node-Red в докере на виртуальной машине EFLOW (Azure IoT Edge на устройстве Windows)?
Как проверить, пусты ли файлы в каталоге озера данных с помощью Фабрики данных Azure?
Azure Databricks: непредвиденный сбой при ожидании готовности кластера. Причина Кластер непригоден для использования, так как драйвер неисправен
Напишите сценарий PowerShell с помощью модуля Runbook, чтобы сделать моментальный снимок виртуальной машины: Запуск от имени учетной записи: Azure
Как добавить журналы в аналитику журналов в приложениях логики Azure?
Локальный репозиторий helm не обновляется из реестра контейнеров Azure
Поставщик учетных данных клиента Azure выдает ошибку "/me request действителен только с делегированным потоком проверки подлинности"
Хранилище BLOB-объектов Azure с Python, создавать контейнеры, но не перечислять их?
ASP.NET Core Web API и Azure: ошибка проверки подлинности, токен доступа в заголовке