Группа R или совокупность

Я хотел бы сделать group_by или агрегат. У меня что-то вроде:

> head(affiliation_clean)
  Affiliation_ID                       Affiliation_Name          City       Country
1       000001   New Mexico State University Las Cruces    Las Cruces United States
2       000001   New Mexico State University Las Cruces    Las Cruces          <NA>
3       000001   New Mexico State University Las Cruces          <NA>          <NA>
4       000002   Palo Alto Research Center Incorporated     Palo Alto          <NA>
5       000002   Palo Alto Research Center Incorporated          <NA> United States
6       000002   Palo Alto Research Center Incorporated          <NA>          <NA>

Группируя по «Affiliation_ID» и беря самую длинную строку «Affiliation_Name», «City» и «Country», я хотел бы получить:

> head(affiliation_clean)
  Affiliation_ID                       Affiliation_Name          City       Country
1       000001   New Mexico State University Las Cruces    Las Cruces United States
2       000002   Palo Alto Research Center Incorporated     Palo Alto United States

Заранее спасибо.

Попробуйте df1 %>% group_by_at(1:2) %>% summarise_all(funs(unique(.[!is.na(.)]))

— 21.03.2018 11:05

Вы просто хотите избавиться от своих значений NA, чтобы уникальные значения в City и Country были связаны со столбцами Affiliation_ID и Affiliation_Name?

— 21.03.2018 11:08

r group-by aggregate

21.03.2018 11:00

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Предполагая, что существует один unique 'Город / Страна' для каждого 'Affiliation_ID', 'Affiliation_Name', после группировки в первых двух столбцах получить элемент unique без NA всех других столбцов с summarise_all

library(dplyr)
affiliation_clean %>%
   group_by(Affiliation_ID, Affiliation_Name) %>%
   summarise_all(funs(unique(.[!is.na(.)])) )
# A tibble: 2 x 4
# Groups: Affiliation_ID [?]
#  Affiliation_ID Affiliation_Name                       City       Country      
#  <chr>          <chr>                                  <chr>      <chr>        
#1 000001         New Mexico State University Las Cruces Las Cruces United States
#2 000002         Palo Alto Research Center Incorporated Palo Alto  United States

21.03.2018 11:09

Ответ принят как подходящий

Вот решение dplyr, основанное на вашем описании, чтобы выбрать самую длинную строку для каждого Affiliation_ID и каждого столбца.

library(dplyr)

dat2 <- dat %>%
  group_by(Affiliation_ID) %>%
  summarise_all(funs(.[which.max(nchar(.))][1]))
dat2
# # A tibble: 2 x 4
#   Affiliation_ID Affiliation_Name                       City       Country      
#            <int> <chr>                                  <chr>      <chr>        
# 1              1 New Mexico State University Las Cruces Las Cruces United States
# 2              2 Palo Alto Research Center Incorporated Palo Alto  United States

ДАННЫЕ

dat <-read.table(text = "  Affiliation_ID                       Affiliation_Name          City       Country
1       '000001'   'New Mexico State University Las Cruces'    'Las Cruces' 'United States'
                 2       '000001'   'New Mexico State University Las Cruces'    'Las Cruces'          NA
                 3       '000001'   'New Mexico State University Las Cruces'          NA          NA
                 4       '000002'   'Palo Alto Research Center Incorporated'     'Palo Alto'          NA
                 5       '000002'   'Palo Alto Research Center Incorporated'          NA 'United States'
                 6       '000002'   'Palo Alto Research Center Incorporated'          NA          NA",
                 header = TRUE, stringsAsFactors = FALSE)

21.03.2018 11:15

Другие вопросы по теме

SQL Select - СУММИРОВАТЬ значение из строки, в которой выполняется группирование, и из предыдущей строки

Группа SQL Server путем исключения некоторых значений

Отфильтровать значения из фрейма данных с помощью group_by или filter?

MySql ГРУППА ПО максимальной дате

Ошибка базы данных MYSQL Выражение № 2 списка SELECT не входит в предложение GROUP BY и содержит неагрегированный столбец

Группа панд по функциям, примененная к столбцу

SQL Server - выберите результаты по выражению группы, но отфильтруйте их по другому выражению группы

Количество клиентов в разных листах ожидания в год-месяц

Столбец выражения Group BY

Получить суммы всех экземпляров идентификатора из двух таблиц

Группа R или совокупность

Ответы 2

Другие вопросы по теме

Похожие вопросы