Я хочу провести анализ текста на французском языке, чтобы визуализировать сходство между этими текстами, возможный класс зависит от используемых слов. Я прошу вашей помощи, потому что я только начал работать с Python и хотел бы знать, как лучше всего выполнять анализ текста в Python, учитывая, что мои тексты на французском языке?
Существуют ли библиотеки, специально предназначенные для французских текстов? Использование будет заключаться в очистке данных и дальнейшем анализе данных.
Я уже могу:
Чего я не могу сделать с французскими словами: перевести в единственное число, перевести глаголы в форму инфинитива...
@vlemaistre meta.stackoverflow.com/a/297680/476
Апс не думал об этом, я просто хотел помочь. Спасибо, что указали на это
Извините за проблему с переводом, это был мой первый вопрос в стеке, и я забыл перевести... Спасибо @vlemaistre за помощь в переводе! я добавил несколько деталей
@AliS, вопрос слишком широкий. Любая система полнотекстового поиска может работать с несколькими языками, используя стеммеры и средства разбиения слов для конкретных языков. Большинство баз данных имеют функциональность FTS с 1990-х годов, и французский язык был добавлен одним из первых языков.
Библиотека Spacy и инструмент Treetagger (который вы можете использовать через библиотеку treetaggerwrapper) имеют хорошую поддержку французского языка.
Пример использования просторный :
import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
print(token.lemma_)
Отпечатки:
je
avoir
manger
un
pomme
hier
Treetagger сложнее установить, но это может вам помочь, а здесь — это документация обертки python.
Зная, насколько суровы мы здесь, в StackOverflow, это голосование кажется мне довольно подозрительным...