У меня есть фрейм данных ниже df1:
ID Label Value
id_1 A
id_1 B
id_1 C
id_1 D
id_1 E
id_1 10
id_1 20
id_1 30
id_2 F
id_2 G
id_2 H
id_2 40
id_2 50
id_2 60
id_2 70
id_2 80
id_2 90
Я хотел бы сгруппировать строки на основе столбца идентификатора следующим образом:
ID Label Value
id_1 A 10
id_1 B 20
id_1 C 30
id_1 D
id_1 E
id_2 F 40
id_2 G 50
id_2 H 60
id_2 70
id_2 80
id_2 90
Моя цель - всегда выравнивать первое значение в столбце «Метка» для данного идентификатора с первым значением столбца «Значение» для того же идентификатора (ожидаются пустые ячейки между числами).
Как это сделать наиболее оптимальным способом?
Я пробовал использовать функцию группировки, но мне не удалось получить то, что я хочу. Я почти уверен, что есть оптимальный способ сделать это, но сейчас не могу понять это.
Также объясните, как/если ваша проблема обобщается. Могут ли быть пустые ячейки между числами? Или начальные/конечные пустые ячейки в столбце «Метка/Значение» соответственно? Что должно произойти в этом случае?
Привет, Мозвей! спасибо за рекомендацию... Да, между ними могут быть пустые ячейки, моя цель - всегда выравнивать первое значение для данного идентификатора в столбце «Метка» с первым значением столбца «Значение» для того же идентификатора.
Тогда, пожалуйста, отредактируйте свой вопрос, чтобы отразить это и предоставить текстовый ввод (а не изображение).
Спасибо за обновление, вы могли бы уточнить, являются ли пустые ячейки None/NaN или пустыми строками.
Предполагая, что пустые ячейки имеют значение NaN/None, вы можете подсчитать количество ведущих пустых строк в Value и конечных в Label (с помощью isna + cummin + sum ), а затем groupby.apply чтобы сдвинуть «Значение» вверх и удалить пустые строки в конце с помощью head:
def cust_shift(g):
# number of leading empty rows
n1 = g['Value'].isna().cummin().sum()
# number of trailing empty rows
n2 = g.loc[::-1, 'Label'].isna().cummin().sum()
# shift Value up and remove trailing empty rows
return g.assign(Value=g['Value'].shift(-n1)).head(-min(n1, n2))
out = df.groupby('ID', group_keys=False)[list(df)].apply(cust_shift)
Выход:
ID Label Value
0 id_1 A 10.0
1 id_1 B 20.0
2 id_1 C 30.0
3 id_1 D NaN
4 id_1 E NaN
8 id_2 F 40.0
9 id_2 G 50.0
10 id_2 H 60.0
11 id_2 None 70.0
Воспроизводимый ввод:
from numpy import nan
df = pd.DataFrame({'ID': ['id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1',
'id_2', 'id_2', 'id_2', 'id_2', 'id_2', 'id_2', 'id_2'],
'Label': ['A', 'B', 'C', 'D', 'E', None, None, None, 'F', 'G', 'H', None, None, None, None],
'Value': [nan, nan, nan, nan, nan, 10.0, 20.0, 30.0, nan, nan, nan, 40.0, 50.0, 60.0, 70.0]})
Если ваши пустые ячейки на самом деле являются пустыми строками, просто адаптируйте приведенный выше код, чтобы использовать eq('') вместо isna
и добавьте fill_value=''
в shift
:
def cust_shift(g):
# number of leading empty rows
n1 = g['Value'].eq('').cummin().sum()
# number of trailing empty rows
n2 = g.loc[::-1, 'Label'].eq('').cummin().sum()
return (g.assign(Value=g['Value'].shift(-n1, fill_value=''))
.head(-min(n1, n2))
)
out = (df.groupby('ID', group_keys=False)[list(df)]
.apply(cust_shift)
)
Выход:
ID Label Value
0 id_1 A 10
1 id_1 B 20
2 id_1 C 30
3 id_1 D
4 id_1 E
8 id_2 F 40
9 id_2 G 50
10 id_2 H 60
11 id_2 70
Альтернативный ввод:
df = pd.DataFrame({'ID': ['id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1', 'id_1',
'id_2', 'id_2', 'id_2', 'id_2', 'id_2', 'id_2', 'id_2'],
'Label': ['A', 'B', 'C', 'D', 'E', '', '', '', 'F', 'G', 'H', '', '', '', ''],
'Value': ['', '', '', '', '', 10, 20, 30, '', '', '', 40, 50, 60, 70]})
Пожалуйста, не используйте изображения данных/кода, предоставьте минимально воспроизводимый пример (в виде текста или лучше в виде
DataFrame
конструктора).