Я делаю проект об иерархической кластеризации и пишу код, в котором я выполняю агломеративную кластеризацию со всеми возможными комбинациями «сродства» и «связи», которые являются двумя параметрами, которые вы можете установить. Проблема возникает, когда я пытаюсь подогнать данные под алгоритм. Набор данных имеет следующую форму (1300, 8) и был проиндексирован с использованием «index_col=0», чтобы избавиться от первого бесполезного столбца (количество столбцов достигает 8 после удаления бесполезного).
Цикл for для связывания на самом деле отлично работает, если запускать его отдельно, проблема связана с привязкой.
dataset = #csv file
aff = ["l1", "l2", "manhattan", "cosine", "precomputed", "euclidean"]
link = ["complete", "average", "single"]
for a in aff:
for l in link:
ds=dataset
ac_tune=AgglomerativeClustering(n_clusters=5, affinity=a, linkage=l)
ac_tune.fit(ds)
ошибка следующая:
IndexError: index 8 is out of bounds for axis 1 with size 8
Это не удается, когда вы пытаетесь выполнить «предварительно вычисленное» сходство. Для этого варианта набор данных должен представлять собой матрицу расстояний, а не необработанные данные.
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html