Как упорядочить строки в произвольном порядке, если есть дубликаты?

Можете ли вы упорядочить строки фрейма данных, если имена дублируются? У меня очень большой набор данных, и я не могу переименовать все повторяющиеся переменные, это выглядит примерно так

статистика ценить с 3 д 7 а 9 б 5 б 1 с 5 е 8 ж 5

И мне нужно упорядочить строки вместе с соответствующим значением перед экспортом в файл Excel (т. е. мне нужен Excel с точным форматом).

статистика ценить а 9 б 1 с 3 д 7 б 5 с 5 е 8 ж 5

Обновлено: Извините, похоже, что во втором примере есть некоторая путаница в порядке «стат». Для целей этого вопроса предположим, что во втором примере нет конкретной логики для порядка «стат», за исключением того, что он должен быть упорядочен именно так.

Для контекста мне нужно экспортировать фрейм данных, отформатированный в очень определенном порядке, для этого нет особой причины, кроме стандартной процедуры компании.

Данные:

xyzzy = structure(list(stat = c("c", "d", "a", "b", "b", "c", "e", "f"
), value = c(3L, 7L, 9L, 5L, 1L, 5L, 8L, 5L)), class = "data.frame", row.names = c(NA, 
-8L))

Мне трудно понять логику упорядочения в вашем втором примере. Как следует упорядочить строки?

— 13.03.2024 12:43

Если появится письмо, которое уже было заказано, перезапускать, пока не повторится то же самое?

— 13.03.2024 12:45

Второй пример упорядочен определенным образом, который я не могу изменить (т.е. так должен выглядеть файл Excel) - следовательно, он не находится в обычном логическом порядке a,b,c,d,e,f.

— 13.03.2024 12:46

Хм, я не совсем понимаю, что ты имеешь в виду под этим Фриде.

— 13.03.2024 12:48

Я не мог понять логику вашего заказа. Почему второй b (строка 5) идет раньше первого e?

— 13.03.2024 13:43

Я думаю, поскольку b встречается в строке 5 во второй раз, строки 1–4 следует упорядочить (содержащие разные буквы). Следующий фрагмент строк, который необходимо упорядочить, начинается с строки 5 до первого появления повторяющейся буквы. В данных примера этого не происходит, т. е. нет возможности проверить правильность моего понимания.

— 13.03.2024 14:03

r dataframe dplyr

13.03.2024 12:40

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Насколько я понимаю, желаемый порядок — это первое появление каждой характеристики, а затем следующее появление каждой характеристики.

library(dplyr)

df <- tibble(stat = c("c", "d", "a", "b", "b", "e", "c"), value = c(seq(7, 1))) 

df <- df |> 
  group_by(stat) |> 
  mutate(order = cumsum(row_number())) |> 
  arrange(order, stat) |> 
  select(-order)

От

  stat  value
  <chr> <int>
1 c         7
2 d         6
3 a         5
4 b         4
5 b         3
6 e         2
7 c         1

К:

      stat  value
  <chr> <int>
1 a         5
2 b         4
3 c         7
4 d         6
5 e         2
6 b         3
7 c         1

13.03.2024 13:06

Если несоответствие желаемого вывода, строка 5 (как указал @metehanGungor), было просто случайностью, вы можете попробовать следующее:

libray(tidyverse)

aux %>% 
  arrange(value) %>% 
  mutate(.by = stat, pos = row_number()) %>% 
  arrange(pos, stat) %>% 
  select(-pos)

> df
# A tibble: 8 × 2
  stat  value
  <chr> <int>
1 a         9
2 b         1
3 c         3
4 d         7
5 e         8
6 f         5
7 b         5
8 c         5

13.03.2024 14:57

Ответ принят как подходящий

порядок stat мне ясен, но я не понимаю, существует ли какой-то определенный порядок value.

Вот решение с использованием data.table:

library(data.table)

# n samples
n <- 400
set.seed(0123)

# create table
df <- data.table::data.table(
    stat = sample(letters[1:5], size = n, replace = TRUE),
    value = sample(0:100, size = n, replace = TRUE)
)

# set initial order
data.table::setorder(df, stat, -value)

# get position by stat
df[, i := seq_len(.N), by = stat]

# now order again
data.table::setorder(df, i, stat)

# remove the index
df[, i := NULL]

> head(df, 10)
      stat value
    <char> <int>
 1:      a   100
 2:      b   100
 3:      c   100
 4:      d   100
 5:      e   100
 6:      a    99
 7:      b   100
 8:      c    99
 9:      d    98
10:      e    99

> tail(df, 10)
      stat value
    <char> <int>
 1:      a     5
 2:      b     3
 3:      e     2
 4:      a     3
 5:      b     2
 6:      e     1
 7:      a     1
 8:      b     1
 9:      a     0
10:      b     1

Однако значение if НЕ следует упорядочивать каким-либо определенным образом. Не заказывайте по нему изначально

# set initial order
data.table::setorder(df, stat, -value)

Вместо этого должно быть:

# set initial order
data.table::setorder(df, stat)

Редактировать

Если вы хотите упорядочить статистику не по алфавиту, это даст вам следующее:

# n samples
n <- 400
set.seed(0123)

# create table
df <- data.table::data.table(
    stat = sample(letters[1:5], size = n, replace = TRUE),
    value = sample(0:100, size = n, replace = TRUE)
)

# add custom order
custom_order <- data.table::data.table(
    stat = sample(letters[1:5]),
    order = 1:5
)

# merge to table
df <- data.table::merge.data.table(
    df,
    custom_order,
    by = "stat"
)

# set initial order
data.table::setorder(df, order, -value)

# get position by stat
df[, i := seq_len(.N), by = order]

# now order again
data.table::setorder(df, i, order)

# remove the index & order
df[, i := NULL]
df[, order := NULL]

Где

> custom_order
     stat order
   <char> <int>
1:      a     1
2:      d     2
3:      c     3
4:      e     4
5:      b     5

> head(df)
     stat value
   <char> <int>
1:      a   100
2:      d   100
3:      c   100
4:      e   100
5:      b   100
6:      a    99

> tail(df)
     stat value
   <char> <int>
1:      e     1
2:      b     2
3:      a     1
4:      b     1
5:      a     0
6:      b     1

Спасибо! Не знал, что в data.table есть функция setorder, мои данные находятся в тиббле, но я преобразую их в data.table. Также да, значение заказано

— 13.03.2024 18:17

13.03.2024 17:28