Рассчитать уровень самого высокого встречающегося фактора по нескольким столбцам сгруппированных данных в R

У меня есть фрейм данных:

df = data.frame(temperature = c(rep("1", 3), rep("2", 5), rep("3", 2)), var1 = c(rep("apple", 5), rep("banana", 5)), var2 = c(rep("aardvark", 2), rep("baboon", 3), NA, rep("coyote", 4)), var3 = c(NA,rep("cherry", 6), rep("dodo", 3)))

и хотите сгруппировать по температуре и найти наиболее общий уровень коэффициента во всех столбцах для каждой температуры и указать количество значений, как показано ниже:

температура наиболее общий явления 1 яблоко 3 2 додо 4 3 банан 2

Я пытался изменить решения из R: найти наиболее частый уровень фактора в каждой группе отдельно для каждого столбца и поиграть с суммированием и поперек, но безуспешно.

Любая помощь очень ценится

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
0
50
3
Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Ответ принят как подходящий

Один из способов — повернуть.

Без связей:

pivot_longer(df, -temperature) |>
   filter(!is.na(value)) |>
   group_by(temperature) |>
   count(value) |>
   slice_max(n, with_ties = FALSE)
# A tibble: 3 × 3
# Groups:   temperature [3]
  temperature value      n
  <chr>       <chr>  <int>
1 1           apple      3
2 2           cherry     4
3 3           banana     2

С галстуками:

pivot_longer(df, -temperature) |>
  filter(!is.na(value)) |>
  group_by(temperature) |>
  count(value) |>
  slice_max(n, with_ties = TRUE)
# A tibble: 6 × 3
# Groups:   temperature [3]
  temperature value      n
  <chr>       <chr>  <int>
1 1           apple      3
2 1           cherry     3
3 2           cherry     4
4 3           banana     2
5 3           coyote     2
6 3           dodo       2

Спасибо, похоже, с моим набором данных это не сработало — все значения в столбце значений были NA. Не уверен, что это потому, что у меня в наборе данных много значений NA. Обновил пример df, чтобы он содержал NA.

B209978 03.08.2024 17:12

Даже после вашего редактирования ответ остается прежним. Примерьте свои реальные данные, добавив filter (см. редактирование).

Edward 03.08.2024 17:16

Вот и всё, спасибо :)

B209978 03.08.2024 17:37
foo_mode <- function(x) {
  freq <- table(x)
  data.frame(most_common = names(freq)[which.max(freq)], occurences = max(freq))
}
split(df[paste0("var", 1:3)], df$temperature) |>
  lapply(\(x) foo_mode(unlist(x))) |>
  dplyr::bind_rows(.id = "temperature")

#   temperature most_common occurences
# 1           1       apple          3
# 2           2      cherry          4
# 3           3      banana          2

Базовое решение R

do.call(
    rbind,
    lapply(
        split(df, ~temperature),
        \(x) {
            cbind(
                temperature = x[[1]][1],
                setNames(
                    rev(stack(tail(sort(table(t(x[-1]))), 1))),
                    c("most_common", "count")
                )
            )
        }
    )
)

дает

  temperature most_common count
1           1       apple     3
2           2      cherry     4
3           3        dodo     2
>

Другие вопросы по теме

Р: Эффективный способ str_replace_all без рекурсивной замены конфликтующих замен?
Использование циклов for, while, tidyverse или пакетов для создания набора данных с характеристиками, соответствующими предыдущему (выборка)
Преобразование списка в тиббл с вложенными столбцами
Применить команду для сложных функций и вычислений в наборе данных в R
Как создавать подгруппы на основе критериев групповых отношений
Объединение кадров данных широты и долготы по ближайшему расстоянию
Параллельный/автоматический способ разделения столбцов списка, содержащих фреймы данных (столбцы списка могут быть пустыми)
Небольшой хак для ggplot — простой способ добавить текст с реальными средними значениями и стандартным отклонением при использовании линий или столбцов
Есть ли способ запретить меткам фасетов иметь одинаковую ширину (после вращения)
Как выполнить итерацию функции для нескольких значений (функция цикла)?