Преобразуйте в широкий формат и установите 0, если значение не существует

У меня есть следующий набор данных:

dataset1 <- data.frame(
        bnames = c("T1", "T1", "T2", "T3", "T3"),
        events = c("I", "O", "I", "I", "O"),
        freq = c(1,2,3,4,5))

Я хочу преобразовать этот набор данных в широкий формат, мой подход (с использованием пакета reshape):

dataset2 <- melt(dataset1, id.vars = c("bnames", "events"))
dataset2 <- dataset2[c("bnames", "events", "value")]
names(dataset2) <- c("bnames", "events", "freq")

содержание dataset2:

  bnames events freq
1     T1      I    1
2     T1      O    2
3     T2      I    3
4     T3      I    4
5     T3      O    5

Но в столбце bnames всегда должно быть две строки с одинаковым именем. Одна строка с I, а другая с O под столбцом events. Если соответствующее значение не существует в исходном наборе данных (dataset1), тогда значение в freq всегда должно быть 0. Итак, мой желаемый результат в этом случае должен быть:

  bnames events freq
1     T1      I    1
2     T1      O    2
3     T2      I    3
4     T2      O    0
5     T3      I    4
6     T3      O    5

Как это сделать? Спасибо

какая разница между dataset1 и dataset2?

— 10.05.2018 13:02

@mtoto dataset1 - это исходные данные, а dataset2 - окончательные данные после обсуждения.

— 10.05.2018 13:05

они кажутся мне одинаковыми

— 10.05.2018 13:05

r reshape reshape2 melt

10.05.2018 12:34

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Ответы 2

Вот один из способов в базе R:

left_hand <- expand.grid(
        bnames = unique(dataset1$bnames), 
        events = c("I", "O"), 
        stringsAsFactors = FALSE
      )

dataset2 <- merge(left_hand, dataset2, all.x = TRUE)
dataset2[is.na(dataset2)] <- 0

В качестве альтернативы в пакете tidyr есть однострочный:

tidyr::complete(dataset2, bnames, events, fill = list(freq = 0))

В примере с tidyr должно ли это быть dataset1 вместо dataset2? (tidyr::complete(dataset1, bnames, events, fill = list(freq = 0)))

— 10.05.2018 13:34

гм, если присмотреться, разве dataset1 не идентичен dataset2?

— 10.05.2018 16:50

Да, вы правы - извините - мне это не было очевидно при первом чтении вопроса. Хороший пример tidyr::complete BTW +1

— 10.05.2018 21:17

10.05.2018 13:06

Вот решение data.table. Сгенерируйте все возможные перестановки имен bname и событий, оставьте соединение этого набора с исходным набором данных и верните частоту, если она доступна, иначе установите 0.

library(data.table)
setDT(dataset1)[CJ(bnames=bnames, events=events, unique=TRUE), 
    .(freq=ifelse(is.na(freq), 0, freq)), 
    by=.EACHI, 
    on=.(bnames, events)]

#   bnames events freq
#1:     T1      I    1
#2:     T1      O    2
#3:     T2      I    3
#4:     T2      O    0
#5:     T3      I    4
#6:     T3      O    5

11.05.2018 02:19

Другие вопросы по теме

Измените форму значений из 1 столбца и прикрепите к имени существующего столбца

Поворот и мультииндексирование

Pandas groupby для создания нового фрейма данных со значениями в виде столбцов

Есть ли способ преобразовать текстовые данные в обычные табличные данные с помощью утилит dplyr?

Укладка файла данных в R

Преобразовать / преобразовать широкий фрейм данных pandas в длинную / табличную форму?

Изменение формы от широкого к длинному с использованием года в имени переменной

Как запустить ANOVA на широкоформатном data.frame?

Изменить форму матрицы scipy csr

Преобразование фрейма данных из широкого в длинный - pandas

Преобразуйте в широкий формат и установите 0, если значение не существует

Ответы 2

Другие вопросы по теме

Похожие вопросы