Как сгруппировать строки на основе идентификатора столбца в фрейме данных pandas?

У меня есть фрейм данных ниже df1:

ID       Label   Value
id_1     A
id_1     B
id_1     C
id_1     D
id_1     E
id_1             10
id_1             20
id_1             30
id_2     F
id_2     G
id_2     H
id_2             40
id_2             50
id_2             60
id_2             70
id_2             80
id_2             90

Я хотел бы сгруппировать строки на основе столбца идентификатора следующим образом:

ID      Label   Value
id_1     A      10
id_1     B      20
id_1     C      30
id_1     D
id_1     E      
id_2     F      40
id_2     G      50
id_2     H      60
id_2            70
id_2            80
id_2            90

Моя цель - всегда выравнивать первое значение в столбце «Метка» для данного идентификатора с первым значением столбца «Значение» для того же идентификатора (ожидаются пустые ячейки между числами).

Как это сделать наиболее оптимальным способом?

Я пробовал использовать функцию группировки, но мне не удалось получить то, что я хочу. Я почти уверен, что есть оптимальный способ сделать это, но сейчас не могу понять это.

Пожалуйста, не используйте изображения данных/кода, предоставьте минимально воспроизводимый пример (в виде текста или лучше в виде DataFrame конструктора).

— 19.07.2024 15:01

Также объясните, как/если ваша проблема обобщается. Могут ли быть пустые ячейки между числами? Или начальные/конечные пустые ячейки в столбце «Метка/Значение» соответственно? Что должно произойти в этом случае?

— 19.07.2024 15:02

Привет, Мозвей! спасибо за рекомендацию... Да, между ними могут быть пустые ячейки, моя цель - всегда выравнивать первое значение для данного идентификатора в столбце «Метка» с первым значением столбца «Значение» для того же идентификатора.

— 19.07.2024 15:05

Тогда, пожалуйста, отредактируйте свой вопрос, чтобы отразить это и предоставить текстовый ввод (а не изображение).

— 19.07.2024 15:11

Спасибо за обновление, вы могли бы уточнить, являются ли пустые ячейки None/NaN или пустыми строками.

— 19.07.2024 15:37

python python-3.x pandas dataframe

19.07.2024 15:00

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Предполагая, что пустые ячейки имеют значение NaN/None, вы можете подсчитать количество ведущих пустых строк в Value и конечных в Label (с помощью isna + cummin + sum ), а затем groupby.apply чтобы сдвинуть «Значение» вверх и удалить пустые строки в конце с помощью head:

def cust_shift(g):
    # number of leading empty rows
    n1 = g['Value'].isna().cummin().sum()
    # number of trailing empty rows
    n2 = g.loc[::-1, 'Label'].isna().cummin().sum()
    # shift Value up and remove trailing empty rows
    return g.assign(Value=g['Value'].shift(-n1)).head(-min(n1, n2))

out = df.groupby('ID', group_keys=False)[list(df)].apply(cust_shift)

Выход:

      ID Label  Value
0   id_1     A   10.0
1   id_1     B   20.0
2   id_1     C   30.0
3   id_1     D    NaN
4   id_1     E    NaN
8   id_2     F   40.0
9   id_2     G   50.0
10  id_2     H   60.0
11  id_2  None   70.0

Воспроизводимый ввод:

from numpy import nan
df = pd.DataFrame({'ID': ['id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1',
                          'id_2', 'id_2', 'id_2', 'id_2', 'id_2', 'id_2', 'id_2'],
                   'Label': ['A', 'B', 'C', 'D', 'E', None, None, None, 'F', 'G', 'H', None, None, None, None],
                   'Value': [nan, nan, nan, nan, nan, 10.0, 20.0, 30.0, nan, nan, nan, 40.0, 50.0, 60.0, 70.0]})

пустые ячейки — это пустые строки

Если ваши пустые ячейки на самом деле являются пустыми строками, просто адаптируйте приведенный выше код, чтобы использовать eq('') вместо isna и добавьте fill_value='' в shift:

def cust_shift(g):
    # number of leading empty rows
    n1 = g['Value'].eq('').cummin().sum()
    # number of trailing empty rows
    n2 = g.loc[::-1, 'Label'].eq('').cummin().sum()
    return (g.assign(Value=g['Value'].shift(-n1, fill_value=''))
             .head(-min(n1, n2))
            )

out = (df.groupby('ID', group_keys=False)[list(df)]
         .apply(cust_shift)
      )

Выход:

      ID Label Value
0   id_1     A    10
1   id_1     B    20
2   id_1     C    30
3   id_1     D      
4   id_1     E      
8   id_2     F    40
9   id_2     G    50
10  id_2     H    60
11  id_2          70

Альтернативный ввод:

df = pd.DataFrame({'ID': ['id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1',
                          'id_2', 'id_2', 'id_2', 'id_2', 'id_2', 'id_2', 'id_2'],
                   'Label': ['A', 'B', 'C', 'D', 'E', '', '', '', 'F', 'G', 'H', '', '', '', ''],
                   'Value': ['', '', '', '', '', 10, 20, 30, '', '', '', 40, 50, 60, 70]})

19.07.2024 15:23