Очистка данных — это процесс удаления или исправления ошибок и нормализации данных, используемых в компьютерных программах. Например, могут быть удалены выбросы, пропущенные выборки могут быть интерполированы, недопустимые значения могут быть помечены как недоступные, а синонимичные значения могут быть объединены. Одним из подходов к очистке данных является структура «аккуратных данных» от Wickham, что означает, что каждая строка является наблюдением, а каждый столбец - переменной.