Я использую инструмент моделирования темы mallet, и у меня есть некоторые трудности, чтобы сделать его стабильным (темы, которые я получаю, кажутся не очень логичными).
Я работал с вашим учебником и этим: https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-self-texts-into-mallet, и у меня есть несколько вопросов по этому поводу:
Спасибо большое за вашу помощь!
Некоторые ссылки на передовой опыт в тематическом моделировании: Уход и кормление тематических моделей с Джорданом Бойд-Грабером и Дэйвом Ньюманом и Прикладное тематическое моделирование с Джорданом Бойд-Грабером и Юнин Ху.
Для оптимизации гиперпараметров --optimize-interval 20 --optimize-burn-in 50
должно подойти, похоже, он не очень чувствителен к конкретным значениям. Сходимость для выборки Гиббса трудно оценить, 1000 итераций по умолчанию следует интерпретировать как «достаточно большое число, которое, вероятно, нормально», а не конкретное значение.
Если вы читаете отдельные документы из файлов в каталоге, строки не имеют значения. Если документы длиннее примерно 1000 токенов до удаления стоп-слова, подумайте о том, чтобы разбить их на более мелкие сегменты.
hLDA включен только потому, что людям это нужно, я не рекомендую его ни для каких целей.