Таким образом, дедупликация является одним из основных и внедрённых методов очистки данных.
Есть несколько способов сделать это в потоке данных.
Как и я, выполняю дедупликацию с помощью агрегатного преобразования, где я помещаю ключевые столбцы (рассмотрите «Имя» и «Фамилия» как столбцы), которые должны быть уникальными в Группе по, и шаблон столбца, такой как имя! = «Имя» && имя! = 'Фамилия' $$ _____first($$) в сводной вкладке.
Проблема с этим методом заключается в том, что если у нас есть в общей сложности 200 столбцов из 300 столбцов, которые следует рассматривать как уникальные столбцы, очень утомительно включать 200 столбцов в мой шаблон столбца.
Может ли кто-нибудь предложить лучший и оптимизированный процесс дедупликации в потоке данных в соответствии с вышеуказанной ситуацией?
Я попытался воспроизвести процесс дедупликации с помощью потока данных. Ниже подход.
Parameter Name: Par1 Type: String Default value: 'col1,col2,col3'
Затем выполняется агрегатное преобразование и группируется по,
sha2(256,byNames(split($Par1,',')))
указан в столбцах и называется groupbycolumn
В агрегатах + добавьте шаблон столбца рядом с столбцом 1, а затем удалите столбец 1. Затем введите true() в соответствующем условии. Затем щелкните неопределенное выражение столбца и введите $$
в выражении имени столбца и first($$)
в выражении значения.
Вывод функции агрегации
Данные группируются по col1, col2 и col3, и первое значение col4 берется для каждой комбинации col1, col2 и col3.
Ссылка: **документ MS** в Сценарий сопоставления потока данных — Фабрика данных Azure | Обучение Майкрософт
Вы хотите сгруппировать по всем столбцам? или сгруппировать только по нескольким столбцам из общего числа столбцов?
1) Если вы хотите брать только несколько столбцов для группировки по столбцам, то да, вам нужно вручную добавить столбцы в параметры, а затем передать это в Группировку по столбцам. 2) Если хотите сгруппировать по всем столбцам, то в настройках группировки введите этот sha2(256,columns())
Так что в любом случае нам нужно добавить имена столбцов вручную в параметр. Можем ли мы получить те, которые динамически заполняются в параметре ???