Я пытаюсь запустить вложенный цикл, используя пакеты Parallel() и foreach(), чтобы увеличить скорость, но безуспешно. У меня есть фрейм данных, где первый столбец представляет собой категориальные данные, а остальные скалярные. Я хочу запустить функцию, например caret::bagFDA, с двумя переменными-предикторами и категориальной переменной в качестве переменной ответа, чтобы все возможные комбинации проверялись без повторения. Итак, я ищу «Категорическую ~ Скалярную переменную 1 + Скалярную переменную 2» во вложенном цикле, в котором все комбинации выполняются без повторения.
Когда я пытаюсь запустить обычный вложенный цикл, он работает нормально. Вот воспроизводимый пример:
#Install packages
#install.packages("caret")
#install.packages("dplyr")
start.time <- Sys.time()
#Libraries
library(caret)
library(dplyr)
#Read iris data
data(iris)
iris <- iris[c(ncol(iris), 1:(ncol(iris) - 1))]
#Sampling 50/50 for train and valid
set.seed(2000)
Train <- iris %>% group_by(Species) %>% sample_frac(.5, replace = FALSE)
Valid <- anti_join(iris, Train)
# bagFDA
BAGFDA <- data.frame(Variable_Name1 = character(0), Variable_Name2 = character(0), Accuracy = numeric(0), Kappa = numeric(0))
set.seed(3000)
for(i in 2:(ncol(Train) - 1)) {
for (j in (i + 1):ncol(Train)) {
tryCatch({
formula <- as.formula(paste("as.factor(Species) ~", names(Train)[i], "+", names(Train)[j]))
bag <- caret::bagFDA(formula, data = Train)
bag_predict <- predict(bag, newdata = Valid)
bag_CM <- confusionMatrix(bag_predict, Valid$Species)
iteration_results <- data.frame(
Variable_Name1 = names(Train)[i],
Variable_Name2 = names(Train)[j],
Accuracy = bag_CM$overall["Accuracy"],
Kappa = bag_CM$overall["Kappa"]
)
BAGFDA <- rbind(BAGFDA, iteration_results)
print("Good")
}, error = function(e) {
cat("ERROR:", conditionMessage(e), "\n")
})
}
}
print(BAGFDA)
end.time <- Sys.time()
time.taken <- round(end.time - start.time,2)
time.taken
Я не уверен, что это наиболее оптимизированный способ запуска кода, но он работал нормально и занял около 4 секунд. Однако когда я пытаюсь запустить его параллельно с пакетами Parallel() и foreach(), я не могу добиться того же результата. Вот код, который я пытаюсь:
#Install packages
#install.packages("foreach")
#install.packages("doParallel")
#install.packages("caret")
#install.packages("dplyr")
start.time <- Sys.time()
#Libraries
library(foreach)
library(doParallel)
library(caret)
library(dplyr)
#Read iris data
data(iris)
iris <- iris[c(ncol(iris), 1:(ncol(iris) - 1))]
#Creating clusters
cores = parallel::detectCores() - 1
cluster = parallel::makeCluster(cores, type = "PSOCK")
doParallel::registerDoParallel(cluster)
if (!foreach::getDoParRegistered())
{
print("ERROR")
}
print(foreach::getDoParWorkers())
#Sampling 50/50 for train and valid
set.seed(2000)
Train <- iris %>% group_by(Species) %>% sample_frac(.5, replace = FALSE)
Valid <- anti_join(iris, Train)
# bagFDA
BAGFDA <- data.frame(Variable_Name1 = character(0), Variable_Name2 = character(0), Accuracy = numeric(0), Kappa = numeric(0))
set.seed(1001)
results <- foreach(i = 2:(ncol(Train) - 1), .combine='cbind') %:%
foreach (j = (i + 1):ncol(Train), .combine='c') %dopar%
tryCatch({
formula <- as.formula(paste("as.factor(Species) ~", names(Train)[i], "+", names(Train)[j]))
bag <- caret::bagFDA(formula, data = Train)
bag_predict <- predict(bag, newdata = Valid)
bag_CM <- confusionMatrix(bag_predict, Valid$Species)
iteration_results <- data.frame(
Variable_Name1 = names(Train)[i],
Variable_Name2 = names(Train)[j],
Accuracy = bag_CM$overall["Accuracy"],
Kappa = bag_CM$overall["Kappa"]
)
BAGFDA <- rbind(BAGFDA, iteration_results)
print("Good")
}, error = function(e) {
cat("ERROR:", conditionMessage(e), "\n")
})
print(BAGFDA)
stopCluster(cluster)
end.time <- Sys.time()
time.taken <- round(end.time - start.time,2)
time.taken
Выполнение не показывает никаких ошибок, но фрейм данных BAGFDA не заполняется, результаты всегда имеют значение NULL, а формула всегда (неизвестна). Понятно, что я делаю что-то не так, но определить ошибку не могу. Не могли бы вы мне помочь? Я следую рекомендациям, изложенным в этом документе: https://cran.r-project.org/web/packages/foreach/vignettes/nested.html
Еще одно ускорение — удалить rbind() из цикла. Если ваши данные становятся большими, это становится очень медленным.
Стоит отметить, что вам также необходимо установить пакеты mda и earth, чтобы запустить пример кода.





Попробуй это:
results <- foreach(i = 2:(ncol(Train) - 1), .combine=rbind) %:%
foreach (j = (i + 1):ncol(Train), .combine=rbind, .packages = c("caret")) %dopar% {
tryCatch({
formula <- as.formula(paste("Species ~", names(Train)[i], "+", names(Train)[j]))
bag <- caret::bagFDA(formula, data = Train)
bag_predict <- predict(bag, newdata = Valid)
bag_CM <- confusionMatrix(bag_predict, Valid$Species)
data.frame(
Variable_Name1 = names(Train)[i],
Variable_Name2 = names(Train)[j],
Accuracy = bag_CM$overall["Accuracy"],
Kappa = bag_CM$overall["Kappa"]
)
}, error = function(e) {
cat("ERROR:", conditionMessage(e), "\n")
})
}
Я считаю, что проблема, с которой вы столкнулись, была вызвана тем, что пакет caret недоступен для рабочих. Поигравшись с исходным кодом, я получил эту ошибку:
Error in { : task 1 failed - "could not find function "confusionMatrix""
это предположило, что это может быть проблемой.
Передача аргумента .packages = c("caret") гарантирует, что пакет доступен для работы.
Результат приведенного выше кода:
Variable_Name1 Variable_Name2 Accuracy Kappa
Accuracy Sepal.Length Sepal.Width 0.7837838 0.6755275
Accuracy1 Sepal.Length Petal.Length 0.9729730 0.9594521
Accuracy2 Sepal.Length Petal.Width 0.9594595 0.9391614
Accuracy3 Sepal.Width Petal.Length 0.9729730 0.9594521
Accuracy11 Sepal.Width Petal.Width 0.9594595 0.9391614
Accuracy4 Petal.Length Petal.Width 0.9594595 0.9391614
Также обратите внимание, что я использую .combine=rbind в обеих командах foreach(). Это означает, что вам не нужно создавать фрейм данных результатов (BAGFDA) перед вводом foreach(), а также позволяет избежать вызова rbind() внутри циклов, что, как уже отмечалось в комментариях, может повлиять на производительность, если вы работаете с большими data (при условии, что вы можете применить это к чему-то другому, кроме iris).
Следует иметь в виду, что set.seed(1001) может не дать желаемого эффекта. Выполните следующую команду несколько раз, и вы увидите, что при каждом запуске вы получаете разные случайные числа. Причина в том, что начальное значение, установленное в мастере, не будет распространяться на каждого из рабочих процессов.
set.seed(1001)
foreach(i = 2:(ncol(Train) - 1)) %:%
foreach (j = (i + 1):ncol(Train), .packages = c("caret")) %dopar% {
runif (3)
}
Привет, датавуки, я попробовал твое предложение, и оно сработало отлично! Я также попробовал это на своей реальной базе данных, и это сработало. Я очень благодарен за помощь!
Концепция параллельного кода одинакова на всех языках: отдельные рабочие процессы не используют одну и ту же среду и не могут видеть глобальные данные, чтобы предотвратить возникновение гонок. Однако они могут обмениваться данными через сообщения. Я бы предложил начать с простого минимального примера, чтобы донести идею, а затем постепенно расширять его, как только вы познакомитесь с концепцией. В противном случае это может привести к непредвиденным проблемам на этом пути. Для ускорения взгляните на
install.packages("data.table"), он пытается использовать несколько ядер «из коробки».