Сворачивание данных по семьям

У меня есть этот набор данных со значениями для близнецов в семьях:

zyg   fid    x_t1    x_t2     y_t1   y_t2
 1 499474     NA     1      1    NA
 1 499474     NA     NA    NA    NA
 1 499474     NA     NA    NA     1
 1 499474     NA     NA    NA    NA
 1 499540     NA     NA     1    NA
 1 499540     NA     NA    NA    NA
 2 499874     NA     NA    NA    NA
 2 499874     NA     NA     1    NA
 2 499874     NA     NA    NA     1
 2 499874     2      NA    NA     1

Как свернуть семьи, сохраняющие информацию о фенотипе для x и y, если они присутствуют?

Ожидается для семейства 499479:

zyg   fid    x_t1    x_t2  y_t1   y_t2
 1 499474     NA     1      1     1

а для семейства 499874 должно быть:

 2 499874     2      NA    1     1

r dplyr

27.03.2022 16:50

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 6

Ответ принят как подходящий

Вы можете использовать следующий код:

library(dplyr)

df %>%
  group_by(fid) %>%
  summarise_all(~first(na.omit(.)))

Выход:

# A tibble: 3 × 6
     fid   zyg  x_t1  x_t2  y_t1  y_t2
   <int> <int> <int> <int> <int> <int>
1 499474     1    NA     1     1     1
2 499540     1    NA    NA     1    NA
3 499874     2     2    NA     1     1

Ваши данные:

df<-structure(list(zyg = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L
), fid = c(499474L, 499474L, 499474L, 499474L, 499540L, 499540L, 
499874L, 499874L, 499874L, 499874L), x_t1 = c(NA, NA, NA, NA, 
NA, NA, NA, NA, NA, 2L), x_t2 = c(1L, NA, NA, NA, NA, NA, NA, 
NA, NA, NA), y_t1 = c(1L, NA, NA, NA, 1L, NA, NA, 1L, NA, NA), 
    y_t2 = c(NA, NA, 1L, NA, NA, NA, NA, NA, 1L, 1L)), class = "data.frame", row.names = c(NA, 
-10L))

27.03.2022 17:00

Если в группе есть только один элемент, не относящийся к NA

library(dplyr)
df1 %>%
 group_by(zyg, fid) %>%
  summarise(across(everything(), ~ .x[complete.cases(.x)][1]), .groups = "drop")

-выход

# A tibble: 3 × 6
    zyg    fid  x_t1  x_t2  y_t1  y_t2
  <int>  <int> <int> <int> <int> <int>
1     1 499474    NA     1     1     1
2     1 499540    NA    NA     1    NA
3     2 499874     2    NA     1     1

данные

df1 <- structure(list(zyg = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L
), fid = c(499474L, 499474L, 499474L, 499474L, 499540L, 499540L, 
499874L, 499874L, 499874L, 499874L), x_t1 = c(NA, NA, NA, NA, 
NA, NA, NA, NA, NA, 2L), x_t2 = c(1L, NA, NA, NA, NA, NA, NA, 
NA, NA, NA), y_t1 = c(1L, NA, NA, NA, 1L, NA, NA, 1L, NA, NA), 
    y_t2 = c(NA, NA, 1L, NA, NA, NA, NA, NA, 1L, 1L)), 
class = "data.frame", row.names = c(NA, 
-10L))

27.03.2022 17:01

Другое возможное решение:

library(dplyr)

df %>% 
  group_by(zyg, fid) %>% 
  summarise(across(everything(), ~ if (all(is.na(.x))) {NA} else
           {max(.x, na.rm = T)}), .groups = "drop")

#> # A tibble: 3 × 6
#>     zyg    fid  x_t1  x_t2  y_t1  y_t2
#>   <int>  <int> <int> <int> <int> <int>
#> 1     1 499474    NA     1     1     1
#> 2     1 499540    NA    NA     1    NA
#> 3     2 499874     2    NA     1     1

27.03.2022 17:03

очень похоже на другие ответы, но я также хотел дать свое собственное решение.

df %>%
  group_by(zyg,fid) %>% 
  summarise(across(everything(),~sum(.,na.rm=TRUE))
            )

27.03.2022 17:22

Вы хотите сделать что-то, что coalesce делает по строкам для столбцов:

Вот как вы можете это сделать:

libarary(dplyr)

coalesce_by_column <- function(df) {
  return(dplyr::coalesce(!!! as.list(df)))
}

df %>%
  group_by(fid) %>%
  summarise(across(everything(), coalesce_by_column))

     fid   zyg  x_t1  x_t2  y_t1  y_t2
   <int> <int> <int> <int> <int> <int>
1 499474     1    NA     1     1     1
2 499540     1    NA    NA     1    NA
3 499874     2     2    NA     1     1

27.03.2022 17:43

Вот еще один возможный вариант с использованием fill и slice:

library(tidyverse)

df %>%
  group_by(zyg, fid) %>%
  fill(everything(), .direction = "downup") %>%
  slice(1)

Выход

    zyg    fid  x_t1  x_t2  y_t1  y_t2
  <int>  <int> <int> <int> <int> <int>
1     1 499474    NA     1     1     1
2     1 499540    NA    NA     1    NA
3     2 499874     2    NA     1     1

Данные

df <- structure(list(zyg = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L
), fid = c(499474L, 499474L, 499474L, 499474L, 499540L, 499540L, 
499874L, 499874L, 499874L, 499874L), x_t1 = c(NA, NA, NA, NA, 
NA, NA, NA, NA, NA, 2L), x_t2 = c(1L, NA, NA, NA, NA, NA, NA, 
NA, NA, NA), y_t1 = c(1L, NA, NA, NA, 1L, NA, NA, 1L, NA, NA), 
    y_t2 = c(NA, NA, 1L, NA, NA, NA, NA, NA, 1L, 1L)), class = "data.frame", row.names = c(NA, 
-10L))

28.03.2022 20:51

Другие вопросы по теме

R: получить номер строки таблицы с помощью пакета dplyr

Умножить столбцы в фрейме данных на значения, указанные в другом кадре данных

R: Заполните NA несколькими группами, суммируя задержки двух переменных

Почему после того, как я использую «подмножество», отфильтрованных данных меньше, чем должно быть?

Удалить повторяющиеся записи только для некоторых строк с помощью dplyr

R мутирует с функцией, case_when и маскированием данных для анализа временных меток

Синтаксис фиктивного кодирования (один горячий вопрос по кодированию)

Идентификация нескольких выбросов переменных с помощью rstatix

Условная мутация путем сопоставления строк или символов

R конвертировать столбцы в JSON построчно

Сворачивание данных по семьям

Ответы 6

данные

Другие вопросы по теме

Похожие вопросы