Кластеризация K-средних между столбцами в наборе данных

Я пытаюсь выполнить кластеризацию k-средних на имеющемся у меня наборе данных pandas.

Набор данных выглядит следующим образом:

Index        A    B    C    D    E
01-01.2000
01:00:00     1    1    1    1    2
01-01-2000
02:00:00     0    1    2    3    0.68
01-01-2000
03:00:00     0.58 2    4    0    0.72

Столбцы индекса идут на 1 год на почасовой основе, и у меня всего 33 столбца.

Я хочу выполнить анализ кластеризации kmeans между столбцами, который будет включать каждую строку как временной ряд. Я ожидаю следующего результата:

Cluster1: столбцы A D G

Cluster2: столбцы B C E

Кластер 3: столбцы I J K

Всего 7 кластеров.

Я написал следующий код:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=7)
kmeans = kmeans.fit(X)
labels = kmeans.predict(X)
Centers = kmeans.cluster_centers_
C = Centers
X=X.values
fig = plt.figure()
ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
ax.plot(X[:, 0], X[:, 1], X[:, 2],X[:, 3],...till 33,marker='o')
ax.plot(C[:, 0], C[:, 1], C[:, 2],C[:, 3],...till 33, marker='o')

Однако после того, как я запустил приведенный выше код, я получаю следующий график, который не является результатом, который я должен генерировать, поскольку он не показывает всего 7 кластеров.

Кластеризация K-средних между столбцами в наборе данных

Я заметил, что в переменной 'labels' у меня 8760 строк и 1 столбец, что, как я думаю, указывает на то, что мой подход считает каждую строку независимой, а не рассматривает строки как временные ряды, кластеризуя их столбец за столбцом.

Могу ли я получить желаемый результат с помощью кластеризации k-средних? или мне следует рассмотреть другие подходы к кластеризации?

Как определяется X? X должен быть массивом формы (n_samples, n_features). Возможно, вы захотите транспонировать X раньше, поскольку кажется, что столбцы X соответствуют вашему другому временному ряду.

Kefeng91 02.05.2018 16:36

@ Kefeng91, я пробовал подход, однако в этом случае матрица C имеет размер от 7 до 8760. Думаю, это не имеет смысла, так как кластеров будет 7, значит 7 центров

Uhalden 03.05.2018 10:23
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
2
2
307
0

Другие вопросы по теме