У меня есть набор данных со значениями NaN и inf, и я ищу библиотеку линейной регрессии, которая может принимать значения NaN и inf. Я использовал sklearn в прошлом, но также видел, как часто используется linregress, но обе библиотеки требуют, чтобы значения NaN и inf были предварительно удалены.
Спасибо за предложения
Для алгоритмов подбора обычно требуются числовые значения. В конце концов, как бы вы решили для x, например, x = 4 + np.nan?
Как упомянул @Moosefeather, вы должны справиться с этим самостоятельно. Самый простой вариант — удалить эти выборки или заменить их средним значением.
Более сложным подходом было бы что-то вроде оценки ожидаемого недостающего значения в зависимости от других значений наблюдения. Это больше работы, и если у вас достаточно чистых данных, удаление неверных значений может быть лучше.
В общем, именно вы должны иметь дело с этими значениями, а не с библиотекой регрессии (ей нужно знать, как вы хотите, чтобы эти значения обрабатывались). Вы можете удалить их или заменить их средним значением соответствующей функции или чем-то еще.