Я хочу обучить модель Fasttext в Python, используя библиотеку «gensim». Во-первых, я должен разбить каждое предложение на его слова, следовательно, преобразовать каждое предложение в список слов. Затем этот список должен быть добавлен к окончательному списку. Поэтому в конце у меня будет вложенный список, содержащий все токенизированные предложения:
word_punctuation_tokenizer = nltk.WordPunctTokenizer()
word_tokenized_corpus = []
for line in open('sentences.txt'):
new = line.strip()
new = word_punctuation_tokenizer.tokenize(new)
if len(new) != 0:
word_tokenized_corpus.append(new)
Затем модель должна быть построена следующим образом:
embedding_size = 60
window_size = 40
min_word = 5
down_sampling = 1e-2
ft_model = FastText(word_tokenized_corpus,
size=embedding_size,
window=window_size,
min_count=min_word,
sample=down_sampling,
sg=1,
iter=100)
Однако количество предложений в «word_tokenized_corpus» очень велико, и программа не может с этим справиться. Возможно ли, чтобы я обучал модель, давая ей каждое токенизированное предложение одно за другим, например следующее:?
for line in open('sentences.txt'):
new = line.strip()
new = word_punctuation_tokenizer.tokenize(new)
if len(new) != 0:
ft_model = FastText(new,
size=embedding_size,
window=window_size,
min_count=min_word,
sample=down_sampling,
sg=1,
iter=100)
Влияет ли это на конечный результат? Можно ли обучить модель, не создавая такой большой список и не сохраняя его в памяти?






Поскольку объем данных очень велик, текстовый файл лучше преобразовать в COR-файл. Затем прочитайте его следующим образом:
from gensim.test.utils import datapath
corpus_file = datapath('sentences.cor')
Что касается следующего шага:
model = FastText(size=embedding_size,
window=window_size,
min_count=min_word,
sample=down_sampling,
sg=1,
iter=100)
model.build_vocab(corpus_file=corpus_file)
total_words = model.corpus_total_words
model.train(corpus_file=corpus_file, total_words=total_words, epochs=5)
Если вы хотите использовать fasttextAPI по умолчанию, вот как вы можете это сделать:
root = "path/to/all/the/texts/in/a/single/txt/files.txt"
training_param = {
'ws': window_size,
'minCount': min_word,
'dim': embedding_size,
't': down_sampling,
'epoch': 5,
'seed': 0
}
# for all the parameters: https://fasttext.cc/docs/en/options.html
model = fasttext.train_unsupervised(path, **training_param)
model.save_model("embeddings_300_fr.bin")
Преимущество использования fasttext API: (1) реализовано на C++ с оболочкой на Python (намного быстрее, чем Gensim) (также многопоточное) (2) лучше управлять чтением текста. Также возможно использовать его непосредственно из командной строки.