Определите группы из n последовательных чисел в поле data.table в группе

В этой таблице данных показаны месяцы года, в которые посещали студенты.

DT = data.table(
 Student = c(1, 1, 1, 1, 1, 1, 1, 1, 1,
             2, 2, 2, 2, 2, 2, 2, 2,
             3, 3, 3, 3, 3, 3, 3, 3),
 Month   = c(1, 2, 3, 5, 6, 7, 8, 11, 12,
             2, 3, 4, 5, 7, 8, 9, 10,
             1, 2, 3, 5, 6, 7, 8, 9))

DT
    Student Month
 1:       1     1
 2:       1     2
 3:       1     3
 4:       1     5
 5:       1     6
 6:       1     7
 7:       1     8
 8:       1    11
 9:       1    12
10:       2     2
11:       2     3
12:       2     4
13:       2     5
14:       2     7
15:       2     8
16:       2     9
17:       2    10
18:       3     1
19:       3     2
20:       3     3
21:       3     5
22:       3     6
23:       3     7
24:       3     8
25:       3     9

Я хочу определить периоды из трех месяцев подряд (идентифицированные первым месяцем в периоде). Это визуализация таблицы данных и подходящих периодов.

       1   2   3   4   5   6   7   8   9   10  11  12


1      *   *   *       *   *   *   *           *   *
       [-------]       [-------]
                           [-------]                           


2          *   *   *   *       *   *   *   *
           [-------]           [-------]
               [-------]           [-------]


3      *   *   *       *   *   *   *   *      
       [-------]       [-------]
                           [-------]
                               [-------]

Желаемый результат:

id   First_month_in_the_period 

1    1
1    5
1    6
2    2
2    3
2    7
2    8
3    1
3    5
3    6
3    7

Поиск решений data.table (или dplyr).

Просто сомнение, почему 1, 2, 3 не являются последовательными для идентификатора 1

akrun 25.05.2019 20:55

Вот они: желаемый вывод включает id = 1 с Month = 1. Или я что-то упустил?

Orion 25.05.2019 21:00

Извините, я не уловил логику. В желаемом выводе удаляются 2, 3 строки, аналогично удаляется 7 для «id» 1. Может быть, если вы можете описать более четко

akrun 25.05.2019 21:10

Мои извенения! Я должен был сделать это яснее

Orion 25.05.2019 21:11
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
4
4
739
6
Перейти к ответу Данный вопрос помечен как решенный

Ответы 6

Вот одно решение, оно использует группу, которую предоставляет data.table,

seqfun <- function(month) {
    n <- length(month)
    tmp <- data.table(a=month[1:(n-2)],b=month[2:(n-1)],c=month[3:n])
    month[which(apply(tmp,1,function(x){all(c(1,1)==diff(x))}))]}

Result <- DT[,seqfun(Month), by=Student]
names(Result) <- c("Student","Month")
> Result
    Student Month
 1:       1     1
 2:       1     5
 3:       1     6
 4:       2     2
 5:       2     3
 6:       2     7
 7:       2     8
 8:       3     1
 9:       3     5
10:       3     6
11:       3     7

По сути, он берет вектор месяца группы, создает 3 вектора для сравнения diff и проверяет, являются ли оба diff расстоянием, равным 1. Если это так, возвращается индекс исходного вектора месяца.

Немного подробностей. Предположим, у нас есть,

month <- c(1,2,3,5,6,7,8,11,12)

и мы вычисляем tmpdata.table (Примечание: вы также можете использовать функцию rollapply в zoo для создания аналогичной таблицы, я покажу это в самом низу)

   a  b  c
1: 1  2  3
2: 2  3  5
3: 3  5  6
4: 5  6  7
5: 6  7  8
6: 7  8 11
7: 8 11 12

Когда мы берем diff по рядам, мы получаем,

> apply(tmp,1,function(x){all(c(1,1)==diff(x))})
[1]  TRUE FALSE FALSE  TRUE  TRUE FALSE FALSE

Истинные значения — это интересующие нас индексы.

Как упоминалось выше, используя zoo библиотеку rollapply, мы могли бы:

> apply(c(1,1)==rollapply(month,width=3,FUN=diff),1,all)
[1]  TRUE FALSE FALSE  TRUE  TRUE FALSE FALSE

чтобы получить булев вектор индексов, которые нас интересуют для конкретного студента.

Ответ принят как подходящий

Решение с использованием tidyverse.

library(tidyverse)
library(data.table)

DT2 <- DT %>%
  arrange(Student, Month) %>%
  group_by(Student) %>%
  # Create sequence of 3
  mutate(Seq = map(Month, ~seq.int(.x, .x + 2L))) %>%
  # Create a flag to show if the sequence match completely with the Month column 
  mutate(Flag = map_lgl(Seq, ~all(.x %in% Month))) %>%
  # Filter the Flag for TRUE
  filter(Flag) %>%
  # Remove columns
  select(-Seq, -Flag) %>%
  ungroup()

DT2
# # A tibble: 11 x 2
#    Student Month
#      <dbl> <dbl>
#  1       1     1
#  2       1     5
#  3       1     6
#  4       2     2
#  5       2     3
#  6       2     7
#  7       2     8
#  8       3     1
#  9       3     5
# 10       3     6
# 11       3     7

Действительно отличный ответ!

tmfmnk 25.05.2019 22:41

Используйте стандартный метод (cumsum...diff...condition) для определения серий последовательных значений, которые затем используются в качестве группирующей переменной вместе с «Студент». В каждой группе создайте последовательность на основе продолжительности каждого прогона и добавьте к первому месяцу.

DT[ , .(start = if (.N >= 3) Month[1] + 0:(.N - 3)),
    by = .(Student, r = cumsum(c(1L, diff(Month) > 1)))]
#     Student r start
#  1:       1 1     1
#  2:       1 2     5
#  3:       1 2     6
#  4:       2 3     2
#  5:       2 3     3
#  6:       2 4     7
#  7:       2 4     8
#  8:       3 4     1
#  9:       3 5     5
# 10:       3 5     6
# 11:       3 5     7

Эквивалентная dplyr альтернатива:

DT %>% 
  group_by(Student, r = cumsum(c(1L, diff(Month) > 1))) %>%
  summarise(list(data.frame(start = if (n() >= 3) Month[1] + 0:(n() - 3)))) %>%
  tidyr::unnest()

# # A tibble: 11 x 3
# # Groups:   Student [3]
#       Student     r start
#         <dbl> <int> <dbl>
#     1       1     1     1
#     2       1     2     5
#     3       1     2     6
#     4       2     3     2
#     5       2     3     3
#     6       2     4     7
#     7       2     4     8
#     8       3     4     1
#     9       3     5     5
#    10       3     5     6
#    11       3     5     7

Вот решение base R, которое создает функцию, которую можно применить к data.table:

cons3fun<-function(x,n){

              consec.list<-split(x,cumsum(c(1,diff(x)!=1))) #Splits into list based on consecutive numbers

              min.len.seq<-consec.list[which(sapply(consec.list,length)>(n-1))] #Selects only the list elements >= to n

              seq.start<-lapply(min.len.seq,function(i) i[1:(length(i)-(n-1))]) #Extracts the first number of each sequence of n

              return(as.vector(unlist(seq.start))) #Returns result as a vector
}

Обратите внимание, что эта функция позволит вам довольно легко изменить количество последовательных чисел, которые вы ищете. Здесь вы должны использовать n=3. Затем вы можете применить эту функцию, используя data.table или dplyr. Я буду использовать data.table, так как вы использовали один.

DT[,cons3fun(Month,3),by=.(Student)]

Надеюсь, вы найдете это полезным. Удачи!

Вот мой подход с использованием tidyverse:

> as_tibble(DT) %>%
      arrange(Student, Month) %>%
      group_by(Student) %>%
      # create an identifier for the start of the sequence
      mutate(seq_id = ifelse(row_number() == 1 | Month - lag(Month) > 1,
                             letters[row_number()], NA)) %>%
      fill(seq_id) %>%
      # add another grouping level (sequence identifier)
      group_by(Student, seq_id) %>%
      # only keep data with attendance in 3 or more consecutive months 
      filter(length(seq_id) > 2) %>%
      # n consecutive months => n - 2 periods
      slice(1:(n() - 2)) %>%
      # clean up
      ungroup() %>%
      select(Student, Month)
# A tibble: 11 x 2
#   Student Month
#    <dbl> <dbl>
#1       1     1
#2       1     5
#3       1     6
#4       2     2
#5       2     3
#6       2     7
#7       2     8
#8       3     1
#9       3     5
#10      3     6
#11      3     7

Еще один data.table подход...

#first, clculate the difference between months, by student.
ans <- DT[, diff := shift( Month, type = "lead" ) - Month ), by = .(Student)]
#then filter rows that are at the start of 2 consecutive differences of 1
#also, drop the temporary diff-column
ans[ diff == 1 & shift( diff, type = "lead" ) == 1,][, diff := NULL][]

вуаля

#    Student Month
# 1:       1     1
# 2:       1     5
# 3:       1     6
# 4:       2     2
# 5:       2     3
# 6:       2     7
# 7:       2     8
# 8:       3     1
# 9:       3     5
# 10:      3     6
# 11:      3     7

Другие вопросы по теме