Параллельная обработка вложенных циклов работает неправильно в R

Я пытаюсь запустить вложенный цикл, используя пакеты Parallel() и foreach(), чтобы увеличить скорость, но безуспешно. У меня есть фрейм данных, где первый столбец представляет собой категориальные данные, а остальные скалярные. Я хочу запустить функцию, например caret::bagFDA, с двумя переменными-предикторами и категориальной переменной в качестве переменной ответа, чтобы все возможные комбинации проверялись без повторения. Итак, я ищу «Категорическую ~ Скалярную переменную 1 + Скалярную переменную 2» во вложенном цикле, в котором все комбинации выполняются без повторения.

Когда я пытаюсь запустить обычный вложенный цикл, он работает нормально. Вот воспроизводимый пример:

#Install packages
#install.packages("caret")
#install.packages("dplyr")

start.time <- Sys.time()
#Libraries
library(caret)
library(dplyr)

#Read iris data
data(iris)
iris <- iris[c(ncol(iris), 1:(ncol(iris) - 1))]

#Sampling 50/50 for train and valid
set.seed(2000)
Train <- iris %>% group_by(Species) %>% sample_frac(.5, replace = FALSE)
Valid <- anti_join(iris, Train)


# bagFDA
BAGFDA <- data.frame(Variable_Name1 = character(0), Variable_Name2 = character(0), Accuracy = numeric(0), Kappa = numeric(0))

set.seed(3000)
for(i in 2:(ncol(Train) - 1)) {
  for (j in (i + 1):ncol(Train)) {
    tryCatch({
      formula <- as.formula(paste("as.factor(Species) ~", names(Train)[i], "+", names(Train)[j]))
      bag <- caret::bagFDA(formula, data = Train)
      bag_predict <- predict(bag, newdata = Valid)
      bag_CM <- confusionMatrix(bag_predict, Valid$Species)
      iteration_results <- data.frame(
        Variable_Name1 = names(Train)[i],
        Variable_Name2 = names(Train)[j],
        Accuracy = bag_CM$overall["Accuracy"],
        Kappa = bag_CM$overall["Kappa"]
      )
      BAGFDA <- rbind(BAGFDA, iteration_results)
      print("Good")
    }, error = function(e) {
      cat("ERROR:", conditionMessage(e), "\n")
    })
  }
}
print(BAGFDA)
end.time <- Sys.time()
time.taken <- round(end.time - start.time,2)
time.taken

Я не уверен, что это наиболее оптимизированный способ запуска кода, но он работал нормально и занял около 4 секунд. Однако когда я пытаюсь запустить его параллельно с пакетами Parallel() и foreach(), я не могу добиться того же результата. Вот код, который я пытаюсь:

#Install packages
#install.packages("foreach")
#install.packages("doParallel")
#install.packages("caret")
#install.packages("dplyr")

start.time <- Sys.time()
#Libraries
library(foreach)
library(doParallel)
library(caret)
library(dplyr)

#Read iris data
data(iris)
iris <- iris[c(ncol(iris), 1:(ncol(iris) - 1))]

#Creating clusters
cores = parallel::detectCores() - 1
cluster = parallel::makeCluster(cores, type = "PSOCK")
doParallel::registerDoParallel(cluster)
if (!foreach::getDoParRegistered()) 
{ 
  print("ERROR")
}
print(foreach::getDoParWorkers()) 

#Sampling 50/50 for train and valid
set.seed(2000)
Train <- iris %>% group_by(Species) %>% sample_frac(.5, replace = FALSE)
Valid <- anti_join(iris, Train)

# bagFDA
BAGFDA <- data.frame(Variable_Name1 = character(0), Variable_Name2 = character(0), Accuracy = numeric(0), Kappa = numeric(0))

set.seed(1001)
results <- foreach(i = 2:(ncol(Train) - 1), .combine='cbind') %:%
  foreach (j = (i + 1):ncol(Train), .combine='c') %dopar%
    tryCatch({
      formula <- as.formula(paste("as.factor(Species) ~", names(Train)[i], "+", names(Train)[j]))
      bag <- caret::bagFDA(formula, data = Train)
      bag_predict <- predict(bag, newdata = Valid)
      bag_CM <- confusionMatrix(bag_predict, Valid$Species)
      iteration_results <- data.frame(
        Variable_Name1 = names(Train)[i],
        Variable_Name2 = names(Train)[j],
        Accuracy = bag_CM$overall["Accuracy"],
        Kappa = bag_CM$overall["Kappa"]
      )
      BAGFDA <- rbind(BAGFDA, iteration_results)
      print("Good")
    }, error = function(e) {
      cat("ERROR:", conditionMessage(e), "\n")
    })

print(BAGFDA)
stopCluster(cluster)
end.time <- Sys.time()
time.taken <- round(end.time - start.time,2)
time.taken

Выполнение не показывает никаких ошибок, но фрейм данных BAGFDA не заполняется, результаты всегда имеют значение NULL, а формула всегда (неизвестна). Понятно, что я делаю что-то не так, но определить ошибку не могу. Не могли бы вы мне помочь? Я следую рекомендациям, изложенным в этом документе: https://cran.r-project.org/web/packages/foreach/vignettes/nested.html

Концепция параллельного кода одинакова на всех языках: отдельные рабочие процессы не используют одну и ту же среду и не могут видеть глобальные данные, чтобы предотвратить возникновение гонок. Однако они могут обмениваться данными через сообщения. Я бы предложил начать с простого минимального примера, чтобы донести идею, а затем постепенно расширять его, как только вы познакомитесь с концепцией. В противном случае это может привести к непредвиденным проблемам на этом пути. Для ускорения взгляните на install.packages("data.table"), он пытается использовать несколько ядер «из коробки».

— 05.05.2024 22:59

Еще одно ускорение — удалить rbind() из цикла. Если ваши данные становятся большими, это становится очень медленным.

— 06.05.2024 02:40

Стоит отметить, что вам также необходимо установить пакеты mda и earth, чтобы запустить пример кода.

— 06.05.2024 06:54

r foreach parallel-processing nested-loops r-caret

05.05.2024 22:31

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Попробуй это:

results <- foreach(i = 2:(ncol(Train) - 1), .combine=rbind) %:%
  foreach (j = (i + 1):ncol(Train), .combine=rbind, .packages = c("caret")) %dopar% {
    tryCatch({
      formula <- as.formula(paste("Species ~", names(Train)[i], "+", names(Train)[j]))
      bag <- caret::bagFDA(formula, data = Train)
      bag_predict <- predict(bag, newdata = Valid)
      bag_CM <- confusionMatrix(bag_predict, Valid$Species)
      
      data.frame(
        Variable_Name1 = names(Train)[i],
        Variable_Name2 = names(Train)[j],
        Accuracy = bag_CM$overall["Accuracy"],
        Kappa = bag_CM$overall["Kappa"]
      )
    }, error = function(e) {
      cat("ERROR:", conditionMessage(e), "\n")
    })
  }

Я считаю, что проблема, с которой вы столкнулись, была вызвана тем, что пакет caret недоступен для рабочих. Поигравшись с исходным кодом, я получил эту ошибку:

Error in { : task 1 failed - "could not find function "confusionMatrix""

это предположило, что это может быть проблемой.

Передача аргумента .packages = c("caret") гарантирует, что пакет доступен для работы.

Результат приведенного выше кода:

           Variable_Name1 Variable_Name2  Accuracy     Kappa
Accuracy     Sepal.Length    Sepal.Width 0.7837838 0.6755275
Accuracy1    Sepal.Length   Petal.Length 0.9729730 0.9594521
Accuracy2    Sepal.Length    Petal.Width 0.9594595 0.9391614
Accuracy3     Sepal.Width   Petal.Length 0.9729730 0.9594521
Accuracy11    Sepal.Width    Petal.Width 0.9594595 0.9391614
Accuracy4    Petal.Length    Petal.Width 0.9594595 0.9391614

Также обратите внимание, что я использую .combine=rbind в обеих командах foreach(). Это означает, что вам не нужно создавать фрейм данных результатов (BAGFDA) перед вводом foreach(), а также позволяет избежать вызова rbind() внутри циклов, что, как уже отмечалось в комментариях, может повлиять на производительность, если вы работаете с большими data (при условии, что вы можете применить это к чему-то другому, кроме iris).

Следует иметь в виду, что set.seed(1001) может не дать желаемого эффекта. Выполните следующую команду несколько раз, и вы увидите, что при каждом запуске вы получаете разные случайные числа. Причина в том, что начальное значение, установленное в мастере, не будет распространяться на каждого из рабочих процессов.

set.seed(1001)
foreach(i = 2:(ncol(Train) - 1)) %:%
  foreach (j = (i + 1):ncol(Train), .packages = c("caret")) %dopar% {
    runif (3)
  }

Привет, датавуки, я попробовал твое предложение, и оно сработало отлично! Я также попробовал это на своей реальной базе данных, и это сработало. Я очень благодарен за помощь!

— 07.05.2024 03:12

06.05.2024 07:27