Я хотел бы заменить NA значением из других строк на основе идентификатора. Я нашел похожие вопросы, но не нашел решения своей проблемы.
Нижняя часть таблицы
XCODE Age Sex ResultA ResultB ResultC
1 X001 12 2 2 3 4
2 X002 23 2 4 6 66
3 X003 NA NA NA NA NA
4 X004 32 1 1 7 3
5 X005 NA NA NA NA NA
6 X001 NA NA NA NA NA
7 X002 NA NA NA NA NA
8 X003 33 1 8 7 6
9 X004 NA NA NA NA NA
10 X005 55 2 8 8 8
У меня есть файл SPSS с более чем 6000 столбцов.
я использовал
library(data.table)
setDT(dataset)[, Age:= Age[!is.na(Age)][1L] , by = XCODE]
но это хорошо только для одного столбца, и мне нужно иметь дело со многими столбцами.
Итак, как я могу выполнить код выше для всех столбцов?
Так что всегда есть ровно одно не-NA значение и одно (или больше?) NA на группу, верно?
Почему тег SPSS — вы тоже ищете ответ в SPSS?





Используя data.table, мы можем выбрать столбцы, которые мы хотим replace
library(data.table)
setDT(df)[, (2:ncol(df)) := lapply(.SD, function(x)
replace(x, is.na(x), x[!is.na(x)][1])) , XCODE]
df
# XCODE Age Sex ResultA ResultB ResultC
# 1: X001 12 2 2 3 4
# 2: X002 23 2 4 6 66
# 3: X003 33 1 8 7 6
# 4: X004 32 1 1 7 3
# 5: X005 55 2 8 8 8
# 6: X001 12 2 2 3 4
# 7: X002 23 2 4 6 66
# 8: X003 33 1 8 7 6
# 9: X004 32 1 1 7 3
#10: X005 55 2 8 8 8
Используя ту же логику в dplyr, мы можем заменить NAs первым не-NA значением группы для всех столбцов.
library(dplyr)
df %>%
group_by(XCODE) %>%
mutate_all(~replace(., is.na(.), .[!is.na(.)][1]))
# XCODE Age Sex ResultA ResultB ResultC
# <fct> <int> <int> <int> <int> <int>
# 1 X001 12 2 2 3 4
# 2 X002 23 2 4 6 66
# 3 X003 33 1 8 7 6
# 4 X004 32 1 1 7 3
# 5 X005 55 2 8 8 8
# 6 X001 12 2 2 3 4
# 7 X002 23 2 4 6 66
# 8 X003 33 1 8 7 6
# 9 X004 32 1 1 7 3
#10 X005 55 2 8 8 8
Или только выбранные столбцы
cols <- c("Age", "Sex", "ResultA","ResultB")
df %>%
group_by(XCODE) %>%
mutate_at(vars(cols), ~ replace(., is.na(.), .[!is.na(.)][1]))
Я использовал setDT(df)[, (2:ncol(df)) := lapply(.SD, function(x) replace(x, is.na(x), x[!is.na(x)][1])) , XCODE], и он отлично работает! Но теперь я хотел бы удалить дубликаты и оставить только один из каждого примера XCODE. Есть ли такая функция, которую я мог бы использовать с data.table?
@l2archer под одним ты имеешь в виду первый из каждого XCODE ? Вы можете попробовать сделать df[!duplicated(df$XCODE), ] после описанной выше операции.
Но как тогда сохранить этот результат в data.table, чтобы потом экспортировать в .xlss? Теперь я использую options(java.parameters = "-Xmx1000m") library(WriteXLS) WriteXLS("dataset",ExcelFileName = "D:/XCodeMerged50.xlsx",row.names=F,col.names=T)
df1 <- df[!duplicated(df$XCODE), ] и тогда вы можете xlsx::write.xlsx(x = df1, file = "your.excelfile.xlsx",sheetName = "test") или просто использовать write.csv(df1, "test.csv")Осталось решить одну вещь. Моя таблица данных основана на файле SPSS, в котором много меток для переменных. И теперь я пометил значения, например. в ячейке есть информация об уровне образования - средняя школа. И я бы предпочел получить необработанное значение (номер метки). Как изменить кодировку значений в таблице, чтобы получить необработанное, не размеченное значение?
Эмм.. мне непонятно. Однако я бы посоветовал вам задать новый вопрос, поскольку каждый пост должен решать только одну конкретную проблему. Вы можете получить хорошие ответы на новый пост.
Мы можем сгруппировать по XCODE и использовать fill(), чтобы заполнить NA последними не-NA. В этом случае нам нужно заполнить в обоих направлениях. Также обратите внимание, что, поскольку вы заполняете все переменные, можно использовать функцию everything()
library(tidyverse)
df %>%
group_by(XCODE) %>%
fill(everything()) %>%
fill(everything(), .direction = 'up')
который дает,
# A tibble: 10 x 6 # Groups: XCODE [5] XCODE Age Sex ResultA ResultB ResultC <fct> <int> <int> <int> <int> <int> 1 X001 12 2 2 3 4 2 X001 12 2 2 3 4 3 X002 23 2 4 6 66 4 X002 23 2 4 6 66 5 X003 33 1 8 7 6 6 X003 33 1 8 7 6 7 X004 32 1 1 7 3 8 X004 32 1 1 7 3 9 X005 55 2 8 8 8 10 X005 55 2 8 8 8
Легче ответить, если вы предоставите воспроизводимые данные и покажете другую таблицу, которая показывает, как вы хотите, чтобы это было.