Вернуть имя столбца, соответствующее значению даты

У меня есть data.frame примерно с 66 тысячами строк и 150 столбцами. Для целей этого вопроса это образец. Все столбцы являются объектами даты.

structure(list(fixed_date = structure(c(19267, 19239, 19120, 
18035, 19253, 19211, 19120, 19778, 19120, 19211, 18224, 18224, 
19624, 19211, 19211, 19211, 18409, 18409, 18558, 19876, 19267
), class = "Date"), BEGIN1 = structure(c(19240, 19212, 19086, 
18008, 19240, 19177, 19086, 19751, 19086, 19177, 18197, 18197, 
19597, 19177, 19177, 18197, 18197, 18197, 18477, 18477, 19240
), class = "Date"), END1 = structure(c(19267, 19239, 19120, 18035, 
19253, 19211, 19120, 19778, 19120, 19211, 18224, 18224, 19624, 
19211, 19211, 18224, 18224, 18224, 18488, 18488, 19267), class = "Date"), 
    BEGIN2 = structure(c(NA, NA, 18043, NA, NA, NA, NA, NA, 18232, 
    NA, NA, NA, NA, NA, 18232, 18232, 18232, 18232, 18512, 19849, 
    18484), class = "Date"), END2 = structure(c(NA, NA, 18070, 
    NA, NA, NA, NA, NA, 18280, NA, NA, NA, NA, NA, 18280, 18280, 
    18280, 18280, 18523, 19876, 18495), class = "Date"), BEGIN3 = structure(c(NA, 
    NA, 18897, NA, NA, NA, NA, NA, 18323, NA, NA, NA, NA, NA, 
    18354, 18354, 18396, 18396, 18547, 19793, 18519), class = "Date"), 
    END3 = structure(c(NA, NA, 18924, NA, NA, NA, NA, NA, 18350, 
    NA, NA, NA, NA, NA, 18381, 18381, 18409, 18409, 18558, 19827, 
    18530), class = "Date"), BEGIN4 = structure(c(NA, NA, 18113, 
    NA, NA, NA, NA, NA, 18687, NA, NA, NA, NA, NA, 18722, 18372, 
    NA, NA, NA, NA, 18554), class = "Date"), END4 = structure(c(NA, 
    NA, 18140, NA, NA, NA, NA, NA, 18700, NA, NA, NA, NA, NA, 
    18749, 18399, NA, NA, NA, NA, 18565), class = "Date"), BEGIN5 = structure(c(NA, 
    NA, 18148, NA, NA, NA, NA, NA, 18407, NA, NA, NA, NA, NA, 
    18407, 18407, NA, NA, NA, NA, NA), class = "Date"), END5 = structure(c(NA, 
    NA, 18175, NA, NA, NA, NA, NA, 18434, NA, NA, NA, NA, NA, 
    18434, 18434, NA, NA, NA, NA, NA), class = "Date")), row.names = c(NA, 
-21L), class = c("tbl_df", "tbl", "data.frame"))

Мне нужен столбец, который дает мне имя столбца в столбцах 2 и 11, которое равно значению столбца 1. Это выполняется без ошибок, но столбец не создается:

sample$match_date_<- apply(sample[,c(2:11)], 1, 
        function(x) names(which(x == sample[,1])))  

Я не знаю, почему это не работает так, как ожидалось, а также я хочу добиться более быстрого решения, поскольку предполагаю, что использование apply будет медленным. Любой совет будет высоко оценен.

Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
0
54
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Как пользователь пакета tidyverse/dplyr, я предлагаю использовать имена столбцов как «переменные» для упрощения манипуляций с помощью pivot_longer(). Если вы ожидаете, что в каждой строке будет одно совпадение, вы можете использовать filter(). Я не думаю, что это замедлится, возможно, на несколько секунд при большем наборе данных.

library(tidyverse) 

df = structure(list(fixed_date = structure(c(19267, 19239, 19120, 
                                             18035, 19253, 19211, 19120, 19778, 19120, 19211, 18224, 18224, 
                                             19624, 19211, 19211, 19211, 18409, 18409, 18558, 19876, 19267
), class = "Date"), BEGIN1 = structure(c(19240, 19212, 19086, 
                                         18008, 19240, 19177, 19086, 19751, 19086, 19177, 18197, 18197, 
                                         19597, 19177, 19177, 18197, 18197, 18197, 18477, 18477, 19240
), class = "Date"), END1 = structure(c(19267, 19239, 19120, 18035, 
                                       19253, 19211, 19120, 19778, 19120, 19211, 18224, 18224, 19624, 
                                       19211, 19211, 18224, 18224, 18224, 18488, 18488, 19267), class = "Date"), 
BEGIN2 = structure(c(NA, NA, 18043, NA, NA, NA, NA, NA, 18232, 
                     NA, NA, NA, NA, NA, 18232, 18232, 18232, 18232, 18512, 19849, 
                     18484), class = "Date"), END2 = structure(c(NA, NA, 18070, 
                                                                 NA, NA, NA, NA, NA, 18280, NA, NA, NA, NA, NA, 18280, 18280, 
                                                                 18280, 18280, 18523, 19876, 18495), class = "Date"), BEGIN3 = structure(c(NA, 
                                                                                                                                           NA, 18897, NA, NA, NA, NA, NA, 18323, NA, NA, NA, NA, NA, 
                                                                                                                                           18354, 18354, 18396, 18396, 18547, 19793, 18519), class = "Date"), 
END3 = structure(c(NA, NA, 18924, NA, NA, NA, NA, NA, 18350, 
                   NA, NA, NA, NA, NA, 18381, 18381, 18409, 18409, 18558, 19827, 
                   18530), class = "Date"), BEGIN4 = structure(c(NA, NA, 18113, 
                                                                 NA, NA, NA, NA, NA, 18687, NA, NA, NA, NA, NA, 18722, 18372, 
                                                                 NA, NA, NA, NA, 18554), class = "Date"), END4 = structure(c(NA, 
                                                                                                                             NA, 18140, NA, NA, NA, NA, NA, 18700, NA, NA, NA, NA, NA, 
                                                                                                                             18749, 18399, NA, NA, NA, NA, 18565), class = "Date"), BEGIN5 = structure(c(NA, 
                                                                                                                                                                                                         NA, 18148, NA, NA, NA, NA, NA, 18407, NA, NA, NA, NA, NA, 
                                                                                                                                                                                                         18407, 18407, NA, NA, NA, NA, NA), class = "Date"), END5 = structure(c(NA, 
                                                                                                                                                                                                                                                                                NA, 18175, NA, NA, NA, NA, NA, 18434, NA, NA, NA, NA, NA, 
                                                                                                                                                                                                                                                                                18434, 18434, NA, NA, NA, NA, NA), class = "Date")), row.names = c(NA, 
                                                                                                                                                                                                                                                                                                                                                  -21L), class = c("tbl_df", "tbl", "data.frame"))


df %>% mutate(id = 1:n() ) %>% 
  pivot_longer(-c(fixed_date, id) )  %>% 
  group_by(id) %>% 
  filter(fixed_date ==value)
#> # A tibble: 20 × 4
#> # Groups:   id [20]
#>    fixed_date    id name  value     
#>    <date>     <int> <chr> <date>    
#>  1 2022-10-02     1 END1  2022-10-02
#>  2 2022-09-04     2 END1  2022-09-04
#>  3 2022-05-08     3 END1  2022-05-08
#>  4 2019-05-19     4 END1  2019-05-19
#>  5 2022-09-18     5 END1  2022-09-18
#>  6 2022-08-07     6 END1  2022-08-07
#>  7 2022-05-08     7 END1  2022-05-08
#>  8 2024-02-25     8 END1  2024-02-25
#>  9 2022-05-08     9 END1  2022-05-08
#> 10 2022-08-07    10 END1  2022-08-07
#> 11 2019-11-24    11 END1  2019-11-24
#> 12 2019-11-24    12 END1  2019-11-24
#> 13 2023-09-24    13 END1  2023-09-24
#> 14 2022-08-07    14 END1  2022-08-07
#> 15 2022-08-07    15 END1  2022-08-07
#> 16 2020-05-27    17 END3  2020-05-27
#> 17 2020-05-27    18 END3  2020-05-27
#> 18 2020-10-23    19 END3  2020-10-23
#> 19 2024-06-02    20 END2  2024-06-02
#> 20 2022-10-02    21 END1  2022-10-02

Created on 2024-06-13 with reprex v2.1.0

Если требуется база R, уточните, я удалю этот ответ.

VinceGreg 14.06.2024 04:08

Ничего страшного. На самом деле ваша идея действительно полезна.

Alejandro Carrera 14.06.2024 06:23

Вот решение с использованием apply:

sample$match_date <- apply(sample, 1, \(x) names(x[-1][x[-1] %in% x[1]][1]))
sample$match_date
# [1] "END1" "END1" "END1" "END1" "END1" "END1" "END1" "END1" "END1" "END1"
#[11] "END1" "END1" "END1" "END1" "END1" NA     "END3" "END3" "END3" "END2"
#[21] "END1"

Мы передаем весь фрейм данных в apply, где первый столбец (x[1]) — это значение для сравнения с остальными данными (x[-1]). Сравнение выполняется с использованием %in% вместо ==, поскольку оно возвращает FALSE для значений NA. Последний [1] гарантирует, что он всегда будет возвращать только одно имя столбца, даже если совпадают несколько дат. Кроме того, полезно вернуть NA, если совпадений нет (как в строке 16).

Другие вопросы по теме

Объединить/объединить несколько фреймов данных pandas со смешиванием значений в одном столбце
Связывание столбцов двух кадров данных разной длины в R tidyverse с сгруппированными векторами
Невозможно преобразовать данные столбца и сохранить их в одном новом столбце в пандах фрейма данных
Каков наиболее эффективный способ заполнения нескольких столбцов значениями из других столбцов таким образом, чтобы их можно было соединить с суффиксом?
Создание таблицы частот для каждого столбца в фрейме данных с помощью цикла и сохранение результатов в списке
Объедините две таблицы, если заданное значение переменной является частью другой переменной
Табуляция столбца в data.frame, игнорируя порядок элементов в нем в R
Как я могу объединить два кадра данных на основе последней даты каждой группы?
График временных рядов с цветовой кодировкой на основе знака значения
Сводная таблица панд на несколько столбцов