Получите кластерные документы DBSCAN

Я попытался использовать DBSCAN (из scikit-learn) для кластеризации текстовых документов. Я использую TF-IDF (TfidfVectorizer в sklearn) для создания функции каждого документа.

Однако я не нашел способа получить (распечатать) документы, сгруппированные с помощью DBSCAN.

DBSCAN в sklearn предоставляет атрибут с именем «labels_», который позволяет нам получать метки групп кластеров (например, 1, 2, 3, -1 для шума). Но я хочу получить документы, сгруппированные с помощью DBSCAN, вместо меток групп кластеров.

Чтобы подчеркнуть, я хочу знать, какие документы принадлежат каждому кластеру. Не могли бы вы предложить способы сделать это?

Большое спасибо!

предоставьте небольшой воспроизводимый набор данных образца и желаемый набор данных

— 12.06.2018 20:57

Разве TfidfVectorizer не создает словарь из текстовых документов?

— 12.06.2018 23:00

Текстовые значения в документах не группируются. Документы сгруппированы. Документы представлены вектором (который содержит несколько значений tf-idf слов, присутствующих в словаре). Эти векторы сгруппированы. Но векторы созданы из TfidfVectorizer, а не из DBSCAN. Так что поясните, пожалуйста, чем вы хотите заниматься. Вы хотите узнать, какие документы принадлежат какому кластеру? Или вы хотите посмотреть словарный запас? Или вы хотите увидеть наиболее репрезентативные слова из одного кластера?

— 13.06.2018 08:55

Привет всем! Спасибо за ваши комментарии. Я обновил описание вопроса. Что касается примера, я постараюсь поработать над ним и еще раз обновлю описание. Тем не менее, я надеюсь, что обновленного описания вопроса уже достаточно, чтобы прояснить мой вопрос.

— 13.06.2018 10:15

Для этого вы используете labels_. Он находится в том же порядке, что и ваши исходные документы. Итак, если labels = [1, -1, 1, 2, 3, 2], это означает, что первый документ из ваших данных принадлежит кластеру 1, второй документ является шумным, третий документ снова принадлежит кластеру 1 и т. д.

— 13.06.2018 11:06

@VivekKumar: Спасибо! вот что я ищу. Если бы вы сделали свой комментарий в качестве ответа на этот вопрос, я бы сделал его принятым ответом :)

— 13.06.2018 13:39

machine-learning scikit-learn hierarchical-clustering dbscan

12.06.2018 20:54

Оптимизация производительности модели: Руководство по настройке гиперпараметров в Python с Keras

Настройка гиперпараметров - это процесс выбора наилучшего набора гиперпараметров для модели машинного обучения с целью оптимизации ее...

Развертывание модели машинного обучения с помощью Flask - Angular в Kubernetes

Kubernetes - это портативная, расширяемая платформа с открытым исходным кодом для управления контейнерными рабочими нагрузками и сервисами, которая...