У меня вопрос по очистке данных/проверке наблюдений. Из-за проблем с конфиденциальностью я не могу поделиться полным кодом или данными. Я могу проиллюстрировать, чего я хочу достичь, на примере. Предположим, это мой набор данных.
Физическое лицо | Год |
---|---|
101 | 2018 |
101 | 2019 |
102 | 2019 |
103 | 2019 |
104 | 2017 |
104 | 2018 |
104 | 2019 |
И предположим, я хочу подсчитать количество разных людей в этом наборе данных. Тогда в данном случае это будет 4 («101», «102», «103», «104»). Но у меня это очень расширено. Есть ли простой способ проверить, сколько людей содержится в общем наборе данных?
Надеюсь, кто-то может помочь :) Я думаю, что должно быть простое решение этой проблемы, но гугление пока не помогло.
Вот ваш пример данных:
data <- data.frame(Individual = c(101, 101, 102, 103, 104, 104, 104),
Year = c("2018", "2019", "2019", "2019", "2017", "2018", "2019"))
Выглядит так:
Individual Year
1 101 2018
2 101 2019
3 102 2019
4 103 2019
5 104 2017
6 104 2018
7 104 2019
Чтобы подсчитать количество уникальных значений в столбце, вы можете использовать следующий код:
length(unique(data$Individual))
Результат:
[1] 4
Выход в данном случае 4.
length(unique(df$Individual))