Сделать моделирование темы Mallet стабильным

Я использую инструмент моделирования темы mallet, и у меня есть некоторые трудности, чтобы сделать его стабильным (темы, которые я получаю, кажутся не очень логичными).

Я работал с вашим учебником и этим: https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-self-texts-into-mallet, и у меня есть несколько вопросов по этому поводу:

  1. Есть ли какие-то лучшие практики для того, чтобы заставить эту модель работать? Кроме команды оптимизации (какое число подходит для этого)? Какой хороший номер для команды итераций?
  2. Я импортирую свои данные с помощью команды import dir. В этом каталоге есть мои файлы. Имеет ли значение, содержат ли эти файлы текст с новыми строками или просто очень длинную строку?
  3. Читал про модель hLDA. Когда я попытался запустить его, я увидел, что единственным выводом является вывод state.txt, который не очень ясен. Я ожидаю результатов, подобных модели моделирования тем (topic_keys.txt, doc_topics.txt), как я могу их получить?
  4. Когда мне следует использовать hLDA, а не тематическое моделирование?

Спасибо большое за вашу помощь!

Тонкая настройка GPT-3 с помощью Anaconda
Тонкая настройка GPT-3 с помощью Anaconda
Зарегистрируйте аккаунт Open ai, а затем получите ключ API ниже.
0
0
150
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Некоторые ссылки на передовой опыт в тематическом моделировании: Уход и кормление тематических моделей с Джорданом Бойд-Грабером и Дэйвом Ньюманом и Прикладное тематическое моделирование с Джорданом Бойд-Грабером и Юнин Ху.

Для оптимизации гиперпараметров --optimize-interval 20 --optimize-burn-in 50 должно подойти, похоже, он не очень чувствителен к конкретным значениям. Сходимость для выборки Гиббса трудно оценить, 1000 итераций по умолчанию следует интерпретировать как «достаточно большое число, которое, вероятно, нормально», а не конкретное значение.

Если вы читаете отдельные документы из файлов в каталоге, строки не имеют значения. Если документы длиннее примерно 1000 токенов до удаления стоп-слова, подумайте о том, чтобы разбить их на более мелкие сегменты.

hLDA включен только потому, что людям это нужно, я не рекомендую его ни для каких целей.

Другие вопросы по теме