Должен ли шаг по исправлению написания слов выполняться до нормализации лексикона (т. е. определения основы, лемматизации) или после? Если мы сделаем это после нормализации лексики, не будут ли слова уже сокращены до своей корневой формы, если мы выполним лемматизацию? (путем передачи POS, т.е. тега частей речи слова в качестве аргумента), так что не было бы никакой пользы для проверки орфографии после нормализации лексики, верно?
Вы должны исправить написание 1st. Лемматизация обучается на каком-то корпусе, но, поскольку я представил что-то, что не является частью этого, это может не сработать. см. ниже:
# import these modules
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print("changing :", lemmatizer.lemmatize("changing", pos = "v"))
print("change :", lemmatizer.lemmatize("change"))
print("changer :", lemmatizer.lemmatize("changer"))
# # a denotes adjective in "pos"
print("changing :", lemmatizer.lemmatize("changyng", pos = "v"))
changing : change #<----------
change : change
changer : changer
changing : changyng #<-------
посмотрите, я только что изменил написание change на changyng, и он не смог выполнить лемматизацию.
Лемматизация слов с ошибками будет не очень эффективной. IMO сначала нужно исправить орфографию, а затем лемматизировать.