Для хеширования какую функцию Hash MD5 или SHA256 мы должны использовать, чтобы у нас не было дубликатов.
Я пытаюсь написать процесс ETL, в котором у нас есть несколько таблиц измерений, которые медленно меняют тип измерения 2. Чтобы зафиксировать, были ли данные обновлены, выполните следующие действия.
Примерная структура таблицы выглядит следующим образом.
Create table EMP
(EMP_NO integer,
EMP_First_name varchar (100),
EMP_last_name varchar (100),
emp_designation_id varchar (10),
emp_add_line_1 varchar (100),
emp_add_line_2 varchar (100),
city varchar(100),
state varchar(100),
country varchar(100),
hash_val varchar(250),
row_active varchar(1)
);





Теоретически ни один из них не гарантирует, что вы не получите дубликатов, хотя на практике вероятность того, что это произойдет, невелика. SHA256 с меньшей вероятностью будет создавать дубликаты, чем MD5, но для вычисления требуется больше времени, поэтому вам решать, какой из них вы используете.