У меня есть набор данных, который состоит из 2000 строк в текстовом файле.
Каждая линия представляет x, y, z (местоположение в трехмерных координатах) 20 точек суставов скелета человеческого тела (например: голова, центр плеча, левое плечо, правое плечо, ..., локоть влево, локоть вправо). Я хочу выполнить кластеризацию этих данных с помощью k-средних.
Данные разделены пробелами, каждое соединение представлено 3 значениями (которые представляют координаты x, y, z). Подобно центру головы и плеч представлен
.0255 ... .01556600 1,3000 ... .0243333 .010000 .1,3102000 ....
Итак, в основном у меня есть 60 столбцов в каждой строке, которые представляют 20 стыков, и каждое соединение состоит из трех точек.
Мой вопрос в том, как мне отформатировать или использовать эти данные для кластеризации k-средних,






Вам не нужно ничего переформатировать.
Каждая строка представляет собой 60-мерный вектор непрерывных значений с сопоставимой шкалой (координатами), необходимой для k-средних.
Вы можете просто запустить для этого k-means.
Но если предположить, что измерения проводились последовательно, вы можете наблюдать сильную корреляцию между строками, поэтому я не ожидал бы, что данные будут сгруппированы очень хорошо, если вы не настроите использование для выполнения и удержания определенных поз.
Не могли бы вы подробнее рассказать о настройке? У меня есть определенные позы в совместных данных. Поскольку данные состоят из 10 различных действий.
Какой результат вы хотите? 20 трехмерных точек для аппроксимации (kmean) 20 суставов по отдельности. Или всего 1 балл, аппроксимирующий все суставы.