Перезаписать уровни столбцов фактора в одном фрейме данных, используя другой

У меня есть 2 фрейма данных с несколькими столбцами факторов. Один из них является базовым фреймом данных, а другой — окончательным фреймом данных. Я хочу обновить уровни базового фрейма данных, используя окончательный фрейм данных.

Рассмотрим этот пример:

base <- data.frame(product=c("Business Call", "Business Transactional", 
                             "Monthly Non-Compounding and Standard Non-Compounding",
                             "OCR based Call", "Offsale Call", "Offsale Savings",
                             "Offsale Transactional", "Out of Scope","Personal Call"))
base$product <- as.factor(base$product)

final <- data.frame(product=c("Business Call", "Business Transactional", 
                              "Monthly Standard Non-Compounding", "OCR based Call", 
                              "Offsale Call", "Offsale Savings","Offsale Transactional", 
                              "Out of Scope","Personal Call", "You Money")) 
final$product <- as.factor(final$product)

Теперь я хотел бы, чтобы окончательная база данных имела те же уровни, что и база, и удаляла уровни, которых вообще не существует, например «You Money». Принимая во внимание, что «Ежемесячная стандартная некомпаундная» должна быть нечеткой.

Например:

levels(base$var1) <- "a" "b" "c"
levels(final$var1) <- "Aa" "Bb" "Cc"

Есть ли способ перезаписать уровни в базовых данных, используя окончательные данные, используя какое-то нечеткое совпадение?

Например, я хочу, чтобы конечные уровни для обоих данных были одинаковыми. то есть

levels(base$var1) <- "Aa" "Bb" "Cc"
levels(final$var1) <- "Aa" "Bb" "Cc"

что значит нечеткое совпадение?

— 09.07.2019 01:01

если порядок меток сохраняется между двумя фреймами данных, возможно, мы могли бы просто base$var1 = factor(base$var1, levels(base$var1), levels(final$var1))

— 09.07.2019 01:12

Я добавил рабочий пример! @Мой Бог

— 11.07.2019 00:49

@Quar Я добавил рабочий пример

— 11.07.2019 00:49

r factors levels

09.07.2019 00:49

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Мы могли бы построить свой собственный fuzzyMatcher.

Во-первых, нам понадобится своего рода векторизованная функция agrep,

agrepv <- function(x, y) all(as.logical(sapply(x, agrep, y)))

на котором мы строим наш fuzzyMatcher.

fuzzyMatcher <-  function(from, to) { 
  mc <- mapply(function(y) 
    which(mapply(function(x) agrepv(y, x), Map(levels, to))), 
    Map(levels, from))
  return(Map(function(x, y) `levels<-`(x, y), base, 
             Map(levels, from)[mc]))
}

final метки, примененные к base меткам (Примечание,, что я сместил столбцы, чтобы сделать его немного более сложным):

base[] <- fuzzyMatcher(final1, base1)
#    X1 X2
# 1  Aa Xx
# 2  Aa Xx
# 3  Aa Yy
# 4  Aa Yy
# 5  Bb Yy
# 6  Bb Zz
# 7  Bb Zz
# 8  Aa Xx
# 9  Cc Xx
# 10 Cc Zz

Обновлять

Основываясь на новых предоставленных выше данных, имеет смысл использовать другой векторизованный agrepv2(), который при использовании с outer() позволяет нам применять agrep ко всем комбинациям уровней обоих векторов. В дальнейшем colSums этот равный ноль дает нам несовпадающие уровни и which.max совпадающие уровни целевого фрейма данных final. Мы можем использовать эти два результирующих вектора, с одной стороны, для удаления неиспользуемых строк final, с другой стороны, для подмножества желаемых уровней фрейма данных base, чтобы перестроить столбец фактора.

# add to mimic other columns in data frame
base$x <- seq(nrow(base))
final$x <- seq(nrow(final))

# some abbrevations for convenience
p1 <- levels(base$product)
p2 <- levels(final$product)

# agrep
AGREPV2 <- Vectorize(function(x, y, ...) agrep(p2[x], p1[y]))  # new vectorized agrep 
out <- t(outer(seq(p2), seq(p1), agrepv2, max.distance=0.9))  # apply `agrepv2`
del.col <- grep(0, colSums(apply(out, 2, lengths))) # find negative matches
lvl <- unlist(apply(out, 2, which.max))  # find positive matches
lvl <- as.character(p2[lvl])  # get the labels

# delete "non-existing" rows and re-generate factor with new labels
transform(final[-del.col, ], product=factor(product, labels=lvl))
#                  product x
# 1          Business Call 1
# 2 Business Transactional 2
# 4         OCR based Call 4
# 5           Offsale Call 5
# 6        Offsale Savings 6
# 7  Offsale Transactional 7
# 8           Out of Scope 8
# 9          Personal Call 9

Данные

base1 <- structure(list(X1 = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 1L, 
3L, 3L), .Label = c("a", "b", "c"), class = "factor"), X2 = structure(c(1L, 
1L, 2L, 2L, 2L, 3L, 3L, 1L, 1L, 3L), .Label = c("x", "y", "z"
), class = "factor")), row.names = c(NA, -10L), class = "data.frame")

final1 <- structure(list(X1 = structure(c(1L, 3L, 1L, 1L, 2L, 3L, 2L, 1L, 
2L, 2L, 3L, 3L, 2L, 2L, 2L), .Label = c("Xx", "Yy", "Zz"), class = "factor"), 
    X2 = structure(c(2L, 1L, 1L, 2L, 2L, 3L, 3L, 1L, 1L, 2L, 
    2L, 2L, 2L, 2L, 3L), .Label = c("Aa", "Bb", "Cc"), class = "factor")), row.names = c(NA, 
-15L), class = "data.frame")

Это не работает, когда порядок не тот же. Вы думаете, есть способ? Кроме того, когда уровни не равны

— 10.07.2019 20:22

@BruceWayne Было бы здорово, если бы вы могли разработать автономный минимальный воспроизводимый пример.

— 10.07.2019 20:27

Конечно! Дай мне попробовать

— 10.07.2019 21:17

Я обновил новый пример, который я хотел бы воспроизвести

— 10.07.2019 22:42

@BruceWayne Отлично, смотрите обновление. Я не знал, что вы хотите делать с «несуществующими уровнями», поскольку они существуют. Я решил удалить строки. Другой способ может заключаться в том, чтобы установить для них NA или назвать их "unmatched"?

— 11.07.2019 00:50

Но вы упускаете продукт «Ежемесячный стандарт без компаундинга», который должен выглядеть как нечеткое совпадение @jay.sf.

— 11.07.2019 00:52

@BruceWayne извините, что вы написали «удалите уровни, которых вообще не существует, например, «You Money» и «Monthly Standard Non-Compounding»». Я уверен, что вы сможете настроить его под свои нужды.

— 11.07.2019 00:54

@BruceWayne всегда пожалуйста, довольно интересный вопрос!

— 11.07.2019 01:00

09.07.2019 11:08