Я загрузил свой твиттер-архив и хотел запустить word2vec, чтобы поэкспериментировать с наиболее похожими словами, аналогиями и т. д.
Но я застрял на первом шаге - как преобразовать данный набор данных/CSV/документ, чтобы его можно было ввести в word2vec? т. е. каков процесс преобразования данных в формат glove/word2vec?
Обычно реализации алгоритмов word2vec и GLoVe выполняют одно или оба из следующих действий:
принять простой текстовый файл, где токены разделены (одним или несколькими) пробелами, а текстом считается каждая строка с разделителями новой строки за раз (со строками, которые не являются «слишком длинными» - обычно это короткая статья или абзац или предложение в строке)
иметь некоторый интерфейс, специфичный для языка/библиотеки, для подачи текстов (списков токенов) в алгоритм в виде потока/итерируемого
Библиотека Python Gensim предлагает оба варианта для своего класса Word2Vec
.
Как правило, вам следует попробовать пройти одно или несколько руководств, чтобы получить рабочий обзор необходимых шагов, от необработанных данных до интересных результатов, прежде чем применять такие библиотеки к вашим собственным данным. И, изучив форматы, используемые этими учебными пособиями, и дополнительные шаги, которые они выполняют для преобразования данных в форматы, необходимые именно для используемых вами библиотек, вы также увидите идеи о том, как ваши данные должны быть подготовлены.
Пожалуйста, смотрите, например, machinelearningmastery.com/… и спрашивайте, если что-то непонятно