У меня есть рабочий R-код, но он неэлегантен и неэффективен. Мне интересно, есть ли лучший способ: т.е. как я могу векторизовать этот процесс и / или уменьшить время вычислений?
library(data.table)
dt <- data.table(
visited_a = c(1, 1, 0, 0),
visited_b = c(1, 0, 0, 0),
visited_c = c(0, 0, 1, 1),
purchased = c("b", "b", "c", "a")
)
В моей таблице data.table есть фиктивные индикаторы того, посещал ли покупатель магазин в 2017 году. Таким образом, visited_a = 0
означает, что она не посещала магазин a
в 2017 году, а visited_b = 1
означает, что она посещала магазин b
в 2017 году. 2018; все эти потребители совершили покупку. Таким образом, покупатель мог посещать или не посещать магазин (в прошлом году), в котором он покупал (в этом году).
Я хочу добавить переменную purchased_was_visited
, чтобы зафиксировать это. Решение было бы таким:
dt$purchased_was_visited <- c(1, 0, 1, 0)
Вот мой необычайно неэлегантный код, который, к сожалению, просматривает data.table по одной строке за раз. Должен быть способ лучше!
dt[ , purchased_was_visited := NA]
for(i in 1:nrow(dt)) {
brand <- dt[i, purchased]
col <- paste0("visited_", brand)
was_it <- dt[i, ..col]
dt[i, purchased_was_visited := was_it]
}
Спасибо - я не знал о Code Review. Я обновлю этот вопрос (сохранится ли он здесь или перейдет в Code Review), чтобы уточнить, что я имею в виду под словом «лучше».
Повторите вашу правку, да, по крайней мере, для R: "как мне не делать это построчно?" здесь обычно рассматривается как относящийся к теме и обычно имеет отношение к представление
Вот еще один способ использовать базовые команды apply
:
## get index of column names which are 1
vals <- apply(dt[,1:3], 1, function(x) which(x == 1))
vals <- lapply(vals, function(x) names(x))
# replace the string in column names before underscore
vals <- lapply(vals, function(x) gsub(pattern = '.*._',replacement = '',x = x))
# create the final column
dt[, purchased_was_visited := mapply(function(x,y) as.integer(x %in% y), purchased, vals)]
print(dt)
visited_a visited_b visited_c purchased purchased_was_visited
1: 1 1 0 b 1
2: 1 0 0 b 0
3: 0 0 1 c 1
4: 0 0 1 a 0
Я бы дал вашим потребителям столбец идентификатора и сохранил данные в двух таблицах:
dt[, cid := .I]
# visits
vDT = melt(dt, id = "cid", meas=patterns("visited"), variable.name = "store")[value == 1, !"value"]
vDT[, store := tstrsplit(store, "_")[[2]]]
vDT[, year := 2017L]
# choices
cDT = dt[, .(cid, year = 2018L, store = purchased)]
Затем вы можете выполнить соединение, чтобы добавить столбец индикатора в cDT:
cDT[, v_before := vDT[.SD, on=.(cid, store, year < year), .N, by=.EACHI]$N]
cid year store v_before
1: 1 2018 b 1
2: 2 2018 b 0
3: 3 2018 c 1
4: 4 2018 a 0
Я не уверен в его элегантности, но вот "аккуратное" и эффективное решение dplyr
:
library(dplyr)
setDF(dt)
dt <- dt %>%
mutate(
check_a = if_else(visited_a == 1, if_else(purchased == "a", 1, 0), 0),
check_b = if_else(visited_b == 1, if_else(purchased == "b", 1, 0), 0),
check_c = if_else(visited_c == 1, if_else(purchased == "c", 1, 0), 0),
purchased_was_visited = check_a + check_b + check_c
) %>%
select(-c(5:7))
Вот еще одна идея - сделайте так, чтобы ваши значения в «приобретенном» соответствовали именам, которые вы даете посещенным столбцам. Таким образом, слово «куплено» можно использовать для прямого поиска необходимых значений. Здесь я переименовал «visit_a» в «a» и т. д. Это также можно было бы сделать программно, как это сделали вы и некоторые другие, но, возможно, разработка для ваших данных и таблицы данных заранее для удобства использования - более аккуратный вариант.
dt <- data.frame(
a = c(1, 1, 0, 0),
b = c(1, 0, 0, 0),
c = c(0, 0, 1, 1),
purchased = c("b", "b", "c", "a")
)
dt$purchased_was_visited <-
sapply(row.names(dt), function(i) {(dt[i, dt[i, 'purchased']])})
dt
# a b c purchased purchased_was_visited
# 1 1 1 0 b 1
# 2 1 0 0 b 0
# 3 0 0 1 c 1
# 4 0 0 1 a 0
Извините, я использовал data.frame, а не data.table, но действует тот же принцип.
Можно использовать get
, группируя по каждой строке. Необходимо подготовить имя столбца (на основе purchased
), которое необходимо оценить для проверки прошлого посещения. Теперь функция get
даст желаемый результат, если будет выполняться для каждой строки. Следовательно, нам нужно сгруппировать по каждой строке (например, by=1:NROW(dt)
):
library(data.table)
dt[,purchased_was_visited := get(paste("visited",purchased,sep = "_")), by=1:NROW(dt)]
dt
# visited_a visited_b visited_c purchased purchased_was_visited
# 1: 1 1 0 b 1
# 2: 1 0 0 b 0
# 3: 0 0 1 c 1
# 4: 0 0 1 a 0
Мне нравится, насколько короткий этот код - и я никогда не видел, чтобы NROW
использовался с by
- умно! FWIW, мой набор данных имеет 35 «посещенных» столбцов и около 40 тыс. Строк, и ваше решение предложило увеличение скорости в 67 раз по сравнению с моим плохим циклом for.
Это может быть более подходящим для Проверка кода, учитывая, что ваш код уже работает. Запросы на «лучший способ» - это слишком общий, в общем, чтобы подходить для SO.