Pandas groupby фильтрует только последние две строки

Я работаю над манипуляциями с пандами и хочу выбрать только две последние строки для каждого столбца «B».

Как обойтись без reset_index и фильтра (сделать внутри groupby)

import pandas as pd
df = pd.DataFrame({
    'A': list('aaabbbbcccc'),
    'B': [0,1,2,5,7,2,1,4,1,0,2],
    'V': range(10,120,10)
})

df

Моя попытка

df.groupby(['A','B'])['V'].sum()

Требуемый результат

A  B
a  
   1     20
   2     30
b  
   5     40
   7     50
c  
   2    110
   4     80

Может быть, вы ищете groupby с параметром as_index=False?

BeRT2me 16.05.2022 20:35
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
1
28
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Пытаться:

df.sort_values(['A', 'B']).groupby(['A']).tail(2)

Выход:

    A  B    V
1   a  1   20
2   a  2   30
3   b  5   40
4   b  7   50
10  c  2  110
7   c  4   80

IIUC, вы хотите получить строки с двумя наивысшими B на A.

Вы можете вычислить rank по убыванию для каждой группы и сохранить их ≤ 2.

df[df.groupby('A')['B'].rank('first', ascending=False).le(2)]

Выход:

    A  B    V
1   a  1   20
2   a  2   30
3   b  5   40
4   b  7   50
7   c  4   80
10  c  2  110

Другие вопросы по теме