Вычислить среднее значение группы в R dplyr

Рассмотрим этот фрейм данных:

library(dplyr)

df <- data.frame(id = c(1,1,1,2,2), x = 1:5)

  id x
1  1 1
2  1 2
3  1 3
4  2 4
5  2 5

Чтобы получить средние значения x для каждого идентификатора, я использую

df |> group_by(id) |> dplyr::summarise(group_mean = mean(x))

# A tibble: 2 × 2
     id group_mean
  <dbl>      <dbl>
1     1        2  
2     2        4.5

Мне нужно вычислить среднее значение этих групповых средних, которое равно (2 + 4,5) / 2 = 3,25. Однако этот код терпит неудачу:

df |> group_by(id) |> dplyr::summarise(group_mean = mean(x)) |> mean(group_mean)

[1] NA
Warning message:
In mean.default(dplyr::summarise(group_by(df, id), group_mean = mean(x)),  :
  argument is not numeric or logical: returning NA

Какие-либо предложения?

Обновлено: Этот вопрос не похож на введите описание ссылки здесь, как упоминал @shizzle, потому что я ищу несбалансированное среднее значение, то есть второй этап агрегирования, а не первый этап расчета средних значений.

Данные несбалансированы, поэтому среднее значение средних не равно среднему значению исходных значений x. Вы уверены, что хотите этого?

— 31.07.2024 16:09

Этот вопрос похож на: Рассчитайте среднее значение по группе. Если вы считаете, что это другое, отредактируйте вопрос, поясните, чем он отличается и/или как ответы на этот вопрос не помогают решить вашу проблему.

— 31.07.2024 16:45

@G.Grothendieck Спасибо за ваше беспокойство, но это несбалансированное среднее значение - это именно то, что мне нужно вычислить.

— 01.08.2024 09:46

r dplyr

31.07.2024 15:51

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Ответ принят как подходящий

Вы можете просто pull столбец со значениями и вычислить mean после него следующим образом:

library(dplyr)

df |> 
  group_by(id) |> 
  dplyr::summarise(group_mean = mean(x)) |> 
  pull(group_mean) |>
  mean()
#> [1] 3.25

^{Created on 2024-07-31 with reprex v2.1.0}

@margusl Ты прав, извини, спасибо!

— 31.07.2024 16:21

31.07.2024 15:55

Вам нужно разгруппировать данные, а затем вычислить среднее значение всех значений group_mean в новом столбце, например:

df |> 
  group_by(id) |> 
  summarise(group_mean = mean(x)) |> 
  ungroup() |> 
  mutate(second_mean = mean(group_mean))

# # A tibble: 2 × 3
#      id group_mean second_mean
#   <dbl>      <dbl>       <dbl>
# 1     1        2          3.25
# 2     2        4.5        3.25

31.07.2024 17:59

В базе

> df = data.frame(id = c(1,1,1,2,2), x = 1:5)
> mean(aggregate(x~id, df, mean)$x)
[1] 3.25

31.07.2024 20:15

Другие вопросы по теме

Самый идиоматический способ изменить несколько похожих столбцов?

Как подсчитать общее количество записей по группам, если они разделены запятыми

Создание большого количества столбцов в R tidyverse на основе сравнения с конкретным столбцом

Сопоставление шаблонов в фрейме данных

Создайте условную переменную для неполных данных

Проблема с фильтром dplyr в R при попытке фильтрации на основе вероятности

Многократное добавление двух столбцов с помощью dplyr

Ошибка при использованииbind_rows, где один фрейм данных имеет столбец типа <hash>

Сложная манипуляция с форматом lon/lat

Создайте новый столбец со средними значениями за интервалы времени

Вычислить среднее значение группы в R dplyr

Ответы 3

Другие вопросы по теме

Похожие вопросы