Обучение модели Fasttext

Я хочу обучить модель Fasttext в Python, используя библиотеку «gensim». Во-первых, я должен разбить каждое предложение на его слова, следовательно, преобразовать каждое предложение в список слов. Затем этот список должен быть добавлен к окончательному списку. Поэтому в конце у меня будет вложенный список, содержащий все токенизированные предложения:

word_punctuation_tokenizer = nltk.WordPunctTokenizer()
word_tokenized_corpus = []
for line in open('sentences.txt'):
   new = line.strip()
   new = word_punctuation_tokenizer.tokenize(new)
   if len(new) != 0:
       word_tokenized_corpus.append(new)

Затем модель должна быть построена следующим образом:

embedding_size = 60
window_size = 40
min_word = 5
down_sampling = 1e-2
ft_model = FastText(word_tokenized_corpus,
                  size=embedding_size,
                  window=window_size,
                  min_count=min_word,
                  sample=down_sampling,
                  sg=1,
                  iter=100)

Однако количество предложений в «word_tokenized_corpus» очень велико, и программа не может с этим справиться. Возможно ли, чтобы я обучал модель, давая ей каждое токенизированное предложение одно за другим, например следующее:?

 for line in open('sentences.txt'):
  new = line.strip()
  new = word_punctuation_tokenizer.tokenize(new)
  if len(new) != 0:
   ft_model = FastText(new,
              size=embedding_size,
              window=window_size,
              min_count=min_word,
              sample=down_sampling,
              sg=1,
              iter=100)

Влияет ли это на конечный результат? Можно ли обучить модель, не создавая такой большой список и не сохраняя его в памяти?

python gensim fasttext

19.12.2020 12:22

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

1 351

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Поскольку объем данных очень велик, текстовый файл лучше преобразовать в COR-файл. Затем прочитайте его следующим образом:

from gensim.test.utils import datapath
corpus_file = datapath('sentences.cor')

Что касается следующего шага:

model = FastText(size=embedding_size,
                  window=window_size,
                  min_count=min_word,
                  sample=down_sampling,
                  sg=1,
                  iter=100)
model.build_vocab(corpus_file=corpus_file)
total_words = model.corpus_total_words
model.train(corpus_file=corpus_file, total_words=total_words, epochs=5)

20.12.2020 08:28

Если вы хотите использовать fasttextAPI по умолчанию, вот как вы можете это сделать:

root = "path/to/all/the/texts/in/a/single/txt/files.txt"

training_param = {
    'ws': window_size,
    'minCount': min_word,
    'dim': embedding_size,
    't': down_sampling,
    'epoch': 5,
    'seed': 0
}
# for all the parameters: https://fasttext.cc/docs/en/options.html

model = fasttext.train_unsupervised(path, **training_param)
model.save_model("embeddings_300_fr.bin")

Преимущество использования fasttext API: (1) реализовано на C++ с оболочкой на Python (намного быстрее, чем Gensim) (также многопоточное) (2) лучше управлять чтением текста. Также возможно использовать его непосредственно из командной строки.

07.02.2021 17:10

Другие вопросы по теме

Что именно делает build_vocab()?

Ошибка Gensim с .most_similar(), перезапуск ядра jupyter

Как правильно загрузить и использовать модель word2vec в веб-приложении через Flask RESTful API?

MemoryError при извлечении статей в список с помощью gensim WikiCorpus

Преобразование вывода word2vec в фрейм данных для sklearn

Gensim в Google Colab не может импортировать NMf

Почему Doc2vec работает медленнее с несколькими ядрами, чем с одним?

Gensim Word2Vec утомительно итерабельный

Преобразование слова в вектор с помощью GloVe

Матрица темы отсортированного документа gensim LDA

Обучение модели Fasttext

Ответы 2

Другие вопросы по теме

Похожие вопросы