Как сравнить один столбец с серией связанных фиктивных переменных без цикла for в R

У меня есть рабочий R-код, но он неэлегантен и неэффективен. Мне интересно, есть ли лучший способ: т.е. как я могу векторизовать этот процесс и / или уменьшить время вычислений?

library(data.table)
dt <- data.table(
    visited_a = c(1, 1, 0, 0),
    visited_b = c(1, 0, 0, 0),
    visited_c = c(0, 0, 1, 1),
    purchased = c("b", "b", "c", "a")
)

В моей таблице data.table есть фиктивные индикаторы того, посещал ли покупатель магазин в 2017 году. Таким образом, visited_a = 0 означает, что она не посещала магазин a в 2017 году, а visited_b = 1 означает, что она посещала магазин b в 2017 году. 2018; все эти потребители совершили покупку. Таким образом, покупатель мог посещать или не посещать магазин (в прошлом году), в котором он покупал (в этом году).

Я хочу добавить переменную purchased_was_visited, чтобы зафиксировать это. Решение было бы таким:

dt$purchased_was_visited <- c(1, 0, 1, 0)

Вот мой необычайно неэлегантный код, который, к сожалению, просматривает data.table по одной строке за раз. Должен быть способ лучше!

dt[ , purchased_was_visited := NA]
for(i in 1:nrow(dt)) {
    brand <- dt[i, purchased]
    col <- paste0("visited_", brand)
    was_it <- dt[i, ..col]
    dt[i, purchased_was_visited := was_it]
}

Это может быть более подходящим для Проверка кода, учитывая, что ваш код уже работает. Запросы на «лучший способ» - это слишком общий, в общем, чтобы подходить для SO.

andrew_reece 28.07.2018 03:19

Спасибо - я не знал о Code Review. Я обновлю этот вопрос (сохранится ли он здесь или перейдет в Code Review), чтобы уточнить, что я имею в виду под словом «лучше».

DanY 28.07.2018 03:23

Повторите вашу правку, да, по крайней мере, для R: "как мне не делать это построчно?" здесь обычно рассматривается как относящийся к теме и обычно имеет отношение к представление

Frank 28.07.2018 05:54
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
5
3
126
5
Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

Вот еще один способ использовать базовые команды apply:

## get index of column names which are 1
vals <- apply(dt[,1:3], 1, function(x) which(x == 1))
vals <- lapply(vals, function(x) names(x))

# replace the string in column names before underscore
vals <- lapply(vals, function(x) gsub(pattern = '.*._',replacement = '',x = x))

# create the final column
dt[, purchased_was_visited := mapply(function(x,y) as.integer(x %in% y), purchased, vals)]

print(dt)

   visited_a visited_b visited_c purchased purchased_was_visited
1:         1         1         0         b                     1
2:         1         0         0         b                     0
3:         0         0         1         c                     1
4:         0         0         1         a                     0

Я бы дал вашим потребителям столбец идентификатора и сохранил данные в двух таблицах:

dt[, cid := .I]

# visits
vDT = melt(dt, id = "cid", meas=patterns("visited"), variable.name = "store")[value == 1, !"value"]
vDT[, store := tstrsplit(store, "_")[[2]]]
vDT[, year := 2017L]

# choices
cDT = dt[, .(cid, year = 2018L, store = purchased)]

Затем вы можете выполнить соединение, чтобы добавить столбец индикатора в cDT:

cDT[, v_before := vDT[.SD, on=.(cid, store, year < year), .N, by=.EACHI]$N]

   cid year store v_before
1:   1 2018     b        1
2:   2 2018     b        0
3:   3 2018     c        1
4:   4 2018     a        0

Я не уверен в его элегантности, но вот "аккуратное" и эффективное решение dplyr:

library(dplyr)

setDF(dt)

dt <- dt %>%
  mutate(
    check_a = if_else(visited_a == 1, if_else(purchased == "a", 1, 0), 0),
    check_b = if_else(visited_b == 1, if_else(purchased == "b", 1, 0), 0),
    check_c = if_else(visited_c == 1, if_else(purchased == "c", 1, 0), 0),
    purchased_was_visited = check_a + check_b + check_c
  ) %>%
  select(-c(5:7))

Вот еще одна идея - сделайте так, чтобы ваши значения в «приобретенном» соответствовали именам, которые вы даете посещенным столбцам. Таким образом, слово «куплено» можно использовать для прямого поиска необходимых значений. Здесь я переименовал «visit_a» в «a» и т. д. Это также можно было бы сделать программно, как это сделали вы и некоторые другие, но, возможно, разработка для ваших данных и таблицы данных заранее для удобства использования - более аккуратный вариант.

dt <- data.frame(
    a = c(1, 1, 0, 0),
    b = c(1, 0, 0, 0),
    c = c(0, 0, 1, 1),
    purchased = c("b", "b", "c", "a")
    )

dt$purchased_was_visited <- 
     sapply(row.names(dt), function(i) {(dt[i, dt[i, 'purchased']])})

dt

#   a b c purchased purchased_was_visited
# 1 1 1 0         b                     1
# 2 1 0 0         b                     0
# 3 0 0 1         c                     1
# 4 0 0 1         a                     0

Извините, я использовал data.frame, а не data.table, но действует тот же принцип.

Ответ принят как подходящий

Можно использовать get, группируя по каждой строке. Необходимо подготовить имя столбца (на основе purchased), которое необходимо оценить для проверки прошлого посещения. Теперь функция get даст желаемый результат, если будет выполняться для каждой строки. Следовательно, нам нужно сгруппировать по каждой строке (например, by=1:NROW(dt)):

library(data.table)

dt[,purchased_was_visited := get(paste("visited",purchased,sep = "_")), by=1:NROW(dt)]

dt
#    visited_a visited_b visited_c purchased purchased_was_visited
# 1:         1         1         0         b                     1
# 2:         1         0         0         b                     0
# 3:         0         0         1         c                     1
# 4:         0         0         1         a                     0

Мне нравится, насколько короткий этот код - и я никогда не видел, чтобы NROW использовался с by - умно! FWIW, мой набор данных имеет 35 «посещенных» столбцов и около 40 тыс. Строк, и ваше решение предложило увеличение скорости в 67 раз по сравнению с моим плохим циклом for.

DanY 28.07.2018 20:07

Другие вопросы по теме