Я пытаюсь выполнить кластеризацию k-средних на имеющемся у меня наборе данных pandas.
Набор данных выглядит следующим образом:
Index A B C D E
01-01.2000
01:00:00 1 1 1 1 2
01-01-2000
02:00:00 0 1 2 3 0.68
01-01-2000
03:00:00 0.58 2 4 0 0.72
Столбцы индекса идут на 1 год на почасовой основе, и у меня всего 33 столбца.
Я хочу выполнить анализ кластеризации kmeans между столбцами, который будет включать каждую строку как временной ряд. Я ожидаю следующего результата:
Cluster1: столбцы A D G
Cluster2: столбцы B C E
Кластер 3: столбцы I J K
Всего 7 кластеров.
Я написал следующий код:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=7)
kmeans = kmeans.fit(X)
labels = kmeans.predict(X)
Centers = kmeans.cluster_centers_
C = Centers
X=X.values
fig = plt.figure()
ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
ax.plot(X[:, 0], X[:, 1], X[:, 2],X[:, 3],...till 33,marker='o')
ax.plot(C[:, 0], C[:, 1], C[:, 2],C[:, 3],...till 33, marker='o')
Однако после того, как я запустил приведенный выше код, я получаю следующий график, который не является результатом, который я должен генерировать, поскольку он не показывает всего 7 кластеров.
Я заметил, что в переменной 'labels' у меня 8760 строк и 1 столбец, что, как я думаю, указывает на то, что мой подход считает каждую строку независимой, а не рассматривает строки как временные ряды, кластеризуя их столбец за столбцом.
Могу ли я получить желаемый результат с помощью кластеризации k-средних? или мне следует рассмотреть другие подходы к кластеризации?
@ Kefeng91, я пробовал подход, однако в этом случае матрица C имеет размер от 7 до 8760. Думаю, это не имеет смысла, так как кластеров будет 7, значит 7 центров
Как определяется X? X должен быть массивом формы (n_samples, n_features). Возможно, вы захотите транспонировать X раньше, поскольку кажется, что столбцы X соответствуют вашему другому временному ряду.