Я делаю проект в Google Colab, где использую следующую версию:
!pip install "gensim==4.2.0" !pip install "texthero==1.0.5"
До недавнего времени я получал следующее предупреждение: Будущее предупреждение: значение регулярного выражения по умолчанию изменится с True на False в будущей версии. return input.str.replace(r"^\d+\s|\s\d+\s|\s\d+$", " ")
Но исполнение сработало нормально. Теперь я получаю следующую ошибку:
Как мне действовать?
Пробовал разные версии, но проблема осталась.
Это ошибка texthero, вызывающая ошибку pandas.
Pandas str.replace теперь использует regex=False
по умолчанию:
Функция replace_digits Texthero не обновлялась уже два года и не проходит явно regex=True
:
if only_blocks:
pattern = r"\b\d+\b"
return s.str.replace(pattern, symbols)
else:
return s.str.replace(r"\d+", symbols)
Вам следует отправить отчет об ошибке в texthero, возможно, есть еще несколько случаев str.replace
, которые нужно исправить.
Тем временем вы можете исправить библиотеку, изменив код на:
if only_blocks:
pattern = r"\b\d+\b"
return s.str.replace(pattern, symbols, regex=True)
else:
return s.str.replace(r"\d+", symbols, regex=True)
Или используйте версию pandas до 2
(например, 1.5.2)
Это ошибка pandas, обязательно обновите свои модули. Функция
hero.clean
должна явно использоватьregex=True
, поскольку значение по умолчанию изменилось наFalse
. Если последняя версия не работает, сообщите об ошибке в texthero.