Скрытое распределение Дирихле, подводные камни, советы и программы

Я экспериментирую с Скрытое размещение Дирихле для устранения неоднозначности и назначения темы, и мне нужен совет.

Какая программа является «лучшей», где лучше всего - сочетание самого простого в использовании, наилучшей предварительной оценки, быстрой
Как мне реализовать свою интуицию относительно актуальности? Допустим, мне кажется, что я знаю, что некоторые элементы корпуса действительно относятся к той же категории, как и все статьи того же автора. Могу я добавить это в анализ?
Есть ли какие-нибудь неожиданные подводные камни или советы, которые мне следует знать перед тем, как отправиться в путь?

Я бы предпочел, чтобы для любой программы были интерфейсы R или Python, но я ожидаю (и принимаю), что буду иметь дело с C.

algorithm statistics nlp

10.10.2008 17:23

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

9 540

Ответы 5

В дополнение к обычный источники, похоже, наиболее активная область, о которой говорят об этом, находится на список тем-моделей. Судя по моему первоначальному обзору, самый простой для понимания пакет - это Пакет LDA Matlab.

Это совсем не легкий материал, поэтому я не удивлен, что по нему сложно найти хорошие ресурсы.

11.10.2008 01:10

Для такого рода анализа я использовал LingPipe: http://alias-i.com/lingpipe/index.html. Это библиотека Java с открытым исходным кодом, части которой я использую напрямую или портирую. Чтобы включить свои собственные данные, вы можете использовать классификатор, например, наивный байесовский класс в сочетании. мой опыт статистического nlp ограничен, но обычно он следует за циклом настройки классификаторов, обучения, просмотра результатов и настройки.

11.10.2008 01:17

http://mallet.cs.umass.edu/ - ИМХО, самый крутой LDA-пакет plug-n-play. Он использует выборку Гиббса для оценки тем и имеет действительно простой интерфейс командной строки с множеством дополнительных наворотов (несколько более сложных моделей, оптимизация гиперпараметров и т. д.)
Лучше позволить алгоритму делать свою работу. Могут быть варианты LDA (и pLSI, и т. д.), Которые позволяют вам делать что-то вроде полу-контролируемого ... На данный момент я не знаю ни одного.
Я обнаружил, что удаление стоп-слов и других очень часто встречающихся слов, похоже, значительно улучшило качество моих тем (оценивалось по основным словам каждой темы, а не по какой-либо строгой метрике). Я предполагаю, что стемминг / лемматизация поможет, поскольку Что ж.

Пол Минейро писал о реализации полууправляемого алгоритма LDA на machinedlearnings.com/2011/04/semi-supervised-lda-gotits.h tml

— 21.04.2011 12:52

16.04.2010 02:01

я второй это. Lda Маллета использует разреженную структуру данных и распределенное обучение, так что это очень быстро. включение оптимизации гиперпараметров даст лучший результат, imo.

21.04.2011 12:02

Вы упомянули о предпочтении R, вы можете использовать два пакета: тематические модели (медленный) или lda (быстрый). В Python есть deltaLDA, pyLDA, Gensim и т. д.
Тематическое моделирование с указанными темами или словами сложно из коробки, Давид Анджеевски имеет некоторый код Python, который, кажется, делает это. Существует реализация C++ контролируемого LDA здесь. И множество статей о связанных подходах (DiscLDA, Маркированный LDA, но не в простой в использовании форме, по крайней мере для меня ...
Как говорит @ adi92, удаление игнорируемых слов, пробелов, чисел, знаков препинания и выделения корней - все это значительно улучшает ситуацию. Одна из возможных ловушек - неправильное (или несоответствующее) количество тем. В настоящее время нет прямой диагностики того, сколько тем является оптимальным для копруса заданного размера и т. д. В MALLET (самый быстрый) доступно несколько меры качества темы, которые очень удобны.