Многомерное масштабирование: Ошибка: достигнут предел векторной памяти 16,0 Гб

У меня есть фрейм данных, содержащий суждения о сходстве пар голосов от 9 слушателей. Я пытаюсь запустить многомерное масштабирование, чтобы увидеть множественные отношения между голосами на сюжете с масштабированием индивидуальных различий. Я использую пакет smacof.

фрейм данных: https://gist.github.com/al3ka/2b4948d4c13baecae75880dd7f1d5e2c

Вот мой код:

# Get unique voices
voices <- unique(c(results$voice1, results$voice2))

# Number of voices
n_voices <- length(voices)

# Create a list to hold each subject's dissimilarity matrix
dissimilarity_list <- list()

# Create a square dissimilarity matrix for each subject
for (subject_id in unique(results$subject)) {
  # Filter responses for the current subject
  subject_responses <- results %>% filter(subject == subject_id)
  
  # Initialize an empty matrix
  dissimilarity_matrix <- matrix(NA, nrow = n_voices, ncol = n_voices,
                                 dimnames = list(voices, voices))
  
  # Fill the matrix with responses
  for (i in 1:nrow(subject_responses)) {
    voice1 <- subject_responses$voice1[i]
    voice2 <- subject_responses$voice2[i]
    response <- subject_responses$response[i]
    dissimilarity_matrix[voice1, voice2] <- response
    dissimilarity_matrix[voice2, voice1] <- response  # Assuming symmetry
  }
  
  # Append to the list
  dissimilarity_list[[subject_id]] <- dissimilarity_matrix
}

# Convert list of matrices to 3D array
dissimilarity_array <- array(NA, dim = c(n_voices, n_voices, length(dissimilarity_list)))
for (i in 1:length(dissimilarity_list)) {
  dissimilarity_array[,,i] <- dissimilarity_list[[i]]
}

# Replace NA values with 0 in the dissimilarity matrices
dissimilarity_array[is.na(dissimilarity_array)] <- 0

# Perform Individual Differences Scaling (INDSCAL)
indscal_result <- smacofIndDiff(dissimilarity_array, ndim = 2)

В тот момент, когда я пытаюсь создать массив, я получаю ошибку:

Ошибка: достигнут предел векторной памяти в 16,0 Гб, см. mem.maxVSize().

Несмотря на то, что мой список составляет около 0,09 ГБ. У меня совершенно новый MBair, и раньше я имел дело с гораздо большими наборами данных. Как я могу обойти эту ошибку? Есть ли способ провести MDS для нескольких слушателей, не создавая средний балл для каждой пары голосов, поскольку это могло бы запутать некоторые различия в данных?

Раньше я запускал это в SPSS, и у меня не было проблем, но я не знаю, как обрабатывать несколько прослушивателей в этой реализации в R без создания массива, что, как я полагаю, заставляет меня сталкиваться с проблемами с памятью. Пожалуйста помоги!

попробуйте запустить свой код, используя только предоставленные вами данные, и оцените, воспроизводит ли он вашу проблему; если не; подумайте, как сделать вашу проблему воспроизводимой

Nir Graham 05.07.2024 16:50

добавил ссылку на GitHub со структурой фрейма данных, надеюсь, это поможет!

Alice P 05.07.2024 17:17
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
2
62
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Ваша проблема была вызвана индексацией в dissimilarity_list с очень большими числами (идентификаторы субъектов представляют собой большие числа), в результате чего был создан огромный список (где у вас всего 9 субъектов), и в результате последующая матрица стала бы более 16 ГБ. Поэтому, чтобы решить ваши проблемы, преобразуйте идентификаторы субъекта в текст, когда вы используете их для создания списка, т.е.

  dissimilarity_list[[as.character(subject_id)]] <- dissimilarity_matrix

Спасибо! Это решило эту проблему. Теперь у меня возникли проблемы со следующей ошибкой: > indscal_result <- smacofIndDiff(dissimilarity_array, ndim = 3) Ошибка в матрице(1, n, n) : нечисловой размер матрицы. Я знаю, если это связано с преобразованием символов, которое каким-то образом хранится в массиве?

Alice P 05.07.2024 18:38

Другие вопросы по теме

Похожие вопросы

Добавление geom_sf к длинному графику с пакетом gratia в R
Объединить строки фрейма данных, которые удовлетворяют условию (принадлежат группе), по столбцу (id)
Как я могу выровнять логотип в заголовке навигационной панели блестящего приложения R, созданного с помощью bslib?
Выражение вызывает ошибку «требуются числовые/комплексные матричные/векторные аргументы» с библиотекой GMM
Могу ли я заставить ggplot использовать страницу слов формата A4 без изменения параметров fig.height, fig.width и dpi?
SparkR: создание таблицы Spark с вложенным столбцом данных
Я не могу запустить R в Ubuntu 24.04 LTS
Как я могу получить точный контроль над положением легенды ggplot теперь, когда числовой аргумент «legend.position» устарел?
Ggsurvplot не отображает комбинированную кривую выживания с add.all = TRUE при фасетировании
Как проверить, являются ли элементы одного списка элементами другого списка в R