Как вы моделируете данные об адресах клиентов и какие технические средства вы используете для обеспечения качества данных?
Такие вещи, как алгоритмы дедупликации, дублирование совпадений, обеспечение фактической доставки пакетов и счетов и тому подобное? Особенно в системах, обслуживающих клиентов во многих странах.
«файл» в данном случае - это бизнес-термин для данных о клиенте. То есть у нас есть «файловые менеджеры», которые отвечают за данные о клиентах. Я разрабатываю (или, скорее, мигрирую) модель данных, выраженную как в терминах ООП, так и в SQL DDL.





Есть ряд поставщиков, которые предоставляют проверку и нормализацию адресов (преобразование нескольких эквивалентных адресов в стандартную форму) в качестве услуги. Некоторые из этих поставщиков также предлагают возможность рассчитывать налоги по этому адресу для выставления счетов. После того, как у вас есть нормализованная форма адреса, поиск дубликатов - это просто вопрос сравнения записей (вы можете использовать хеш для скорости). Я не решаюсь поддерживать конкретного поставщика этого программного обеспечения или даже перечислять несколько в Stackoverflow ...
Вы проектируете файл или база данных? Они очень разные. Один - это абстракция физического хранилища данных, а другой - то, что вам никогда не следует делать.