Замена элементов имен столбцов связанными строками

У меня есть таблица data.table с автоматически сгенерированными именами столбцов. Имена принимают форму:

Н.x.y.z

Где N — символ (буквально N), а остальные переменные — целые числа.

У меня также есть файл .csv, который связывает итерации x со значимыми строками. Как в:

Икс Имя 1 Модель 3 Пробег

Я хотел бы восстановить имена столбцов в формате:

Н.Имя.y.z

Я попытался сначала извлечь имена столбцов, например

thefile = fread('filepath')

xx <- colnames(thefile)

colindex <- read.csv('the other file path')
colindex[,1] <- paste0('N.', colindex[,1], '.') #Converting x to N.x.

Я возился с grepl, replace_at, разделяя строку на '.'

r data.table r-colnames

18.03.2024 18:35

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 4

Ответ принят как подходящий

read.table(text = "X    Name
                   1    Model
                   3    Mileage", 
           header = T, stringsAsFactor = FALSE) -> colindex


df1 <- data.frame(`N.1.2.3` = c(1,2), `N.3.1.2` = c(6,5), 
                  `N.1.3.1` = c(3, 4), `N.3.2.2` = c(8, 7))

df1
#>   N.1.2.3 N.3.1.2 N.1.3.1 N.3.2.2
#> 1       1       6       3       8
#> 2       2       5       4       7

names_split <-  as.data.frame(strsplit(names(df1), "\\."))
names_split[2,] <-  colindex[match(names_split[2,], colindex$X), "Name"]
names(df1) <- apply(names_split, 2, paste, collapse = ".")

df1
#>   N.Model.2.3 N.Mileage.1.2 N.Model.3.1 N.Mileage.2.2
#> 1           1             6           3             8
#> 2           2             5           4             7

^{Created on 2024-03-18 with reprex v2.0.2}

Да, это работает, спасибо. Вероятно, я неправильно прочитал документацию, но мне кажется, что match найдет первый экземпляр совпадения, а не все экземпляры, но здесь он находит все экземпляры.

— 19.03.2024 11:07

18.03.2024 19:21

Другой вариант (с использованием данных @M--) — использовать stringr:

stringr::str_replace_all(
  names(df1),
  setNames(paste0("N.", colindex$Name), paste0("N\\.", colindex$X)))
# [1] "N.Model.2.3"   "N.Mileage.1.2" "N.Model.3.1"   "N.Mileage.2.2"

(и переназначить их обратно с помощью names(df1) <-)

Этот подход немного специфичен: то, что вы хотите, должно быть точно рядом с буквальным N.. При необходимости его можно адаптировать к другим положениям, слегка изменив рисунок.

Версия base-R может быть:

gre <- gregexpr("(?<=N[.])([0-9]+)(?=[.])", names(df1), perl = TRUE)
regmatches(names(df1), gre) <- colindex$Name[match(unlist(regmatches(names(df1), gre)), colindex$X)]
df1
#   N.Model.2.3 N.Mileage.1.2 N.Model.3.1 N.Mileage.2.2
# 1           1             6           3             8
# 2           2             5           4             7

Спасибо за решение. Могу ли я задать косвенный вопрос; насколько важно регулярное выражение для R? Это не то, что мне приходилось использовать перед использованием конкретного приложения Matlab.

— 19.03.2024 11:10

Выполняет ли Matlab динамическую модификацию строк с помощью какого-либо другого типа выражения? Regex — это отдельный язык/конструкция, определенно не уникальная для R. Как и другие конструкции, она очень эффективна для многих вещей и неправильно используется в других.

— 19.03.2024 12:13

Возможно, но мне не приходилось его использовать, я в основном выполнял вычисления с массивами, поэтому мне никогда не приходилось делать что-то сложное со строками. Поскольку я собираюсь больше использовать R для задач, в которых используются как числовые, так и текстовые данные, мне интересно, поможет ли знакомство с регулярными выражениями или это будет полезно лишь изредка.

— 19.03.2024 12:57

Как я уже сказал, регулярное выражение — это инструмент, который нужно использовать. Это не специфично для R... видимо, matlab тоже делает регулярное выражение . Некоторые вещи Regex делает очень хорошо, а для других он вообще не подходит (например, не парсинг HTML). Мир регулярных выражений может быть волшебным, и при правильном использовании он великолепен, но в некоторых ситуациях он не самый лучший (производительность, стабильность и т.д.). Я не говорю, что регулярное выражение — это волшебный эликсир, просто его можно безопасно использовать.

— 19.03.2024 13:23

18.03.2024 20:13

Используя data.table::setnames, разделите имена столбцов на ".", затем вставьте их обратно, заменив второй элемент из поиска:

library(data.table)

lookup <- fread(text = "X    Name
                   1    Model
                   3    Mileage", 
           header = T, stringsAsFactor = FALSE)
# convert to named vector
lookup <- setNames(lookup$Name, lookup$X)

dt <- data.table(`N.1.2.3` = c(1,2), `N.3.1.2` = c(6,5), 
                 `N.1.3.1` = c(3, 4), `N.3.2.2` = c(8, 7))

setnames(dt, 
         new = sapply(strsplit(colnames(dt), ".", fixed = TRUE), function(i){
           paste(i[ 1 ], lookup[ i[ 2 ] ], i[ 3 ], i[ 4 ], sep = ".") } ))
dt

#      N.Model.2.3 N.Mileage.1.2 N.Model.3.1 N.Mileage.2.2
#           <num>         <num>       <num>         <num>
# 1:           1             6           3             8
# 2:           2             5           4             7

18.03.2024 20:53

library(tidyverse)
rename_with(df1, ~str_replace(.x, "\\d", ~deframe(colindex)[.x]))

  N.Model.2.3 N.Mileage.1.2 N.Model.3.1 N.Mileage.2.2
1           1             6           3             8
2           2             5           4             7

Другие варианты:

rename_with(df1,~str_replace_all(.x,deframe(map(colindex, ~str_c('N.', .x)))))

  N.Model.2.3 N.Mileage.1.2 N.Model.3.1 N.Mileage.2.2
1           1             6           3             8
2           2             5           4             7

база Р:

fn <- \(x,y)sub(sprintf("(?<=N.)%s", y[1]), y[2], x, perl = TRUE)
setNames(df1, Reduce(fn, asplit(colindex, 1), names(df1)))

  N.Model.2.3 N.Mileage.1.2 N.Model.3.1 N.Mileage.2.2
1           1             6           3             8
2           2             5           4             7

Данные:

colindex <- read.table(text = "X    Name
                   1    Model
                   3    Mileage", 
           header = T, stringsAsFactor = FALSE) 


df1 <- data.frame(`N.1.2.3` = c(1,2), `N.3.1.2` = c(6,5), 
                  `N.1.3.1` = c(3, 4), `N.3.2.2` = c(8, 7))

18.03.2024 22:54

Другие вопросы по теме

Есть ли способ расширить строки во фрейме данных, используя два столбца?

Сохранять значение при использовании data.table::fcase() вместо dplyr::case_when()

Data.table: сохранять исходное имя столбца при применении функции внутри оператора «by=variable»

R: получить функцию в таблице data.table с критериями ifelse

Data.table сдвиг() в версии 1.15.2 не работает, когда строки подмножества в i по столбцу - `DT[i == TRUE, (cols) := сдвиг(), by = col]`

GForce data.table — применение нескольких функций к нескольким столбцам (с необязательными аргументами)

Рассчитайте новый столбец, указав тренд/наклон в других столбцах, используя data.table R

Прокручивающееся левое соединение с заполнением значений для всех строк в левой таблице

Фильтровать строки по N-му столбцу с помощью R data.table fread в Windows

Объединение двух наборов данных вместе, в результате чего получаются NA в R

Замена элементов имен столбцов связанными строками

Ответы 4

Другие вопросы по теме

Похожие вопросы