Панды в каждой n-й строке из каждой группы

Предположим, что в группах будет более n участников, я хочу взять каждую n-ю строку из каждой группы. Я посмотрел https://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.core.groupby.GroupBy.nth.html, но для этого требуется только одна строка из каждой группы.

Например:

    import pandas as pd
    x = pd.DataFrame.from_dict({'a': [1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3], 'b': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]})


    a   b
0   1   1
1   1   2

2   2   3
3   2   4
4   2   5

5   3   6
6   3   7
7   3   8
8   3   9
9   3  10
10  3  11
11  3  12

И если мы сохраним каждую вторую строку, это будет желаемый результат:

    a   b
1   1   2

3   2   4

6   3   7
8   3   9
10  3  11
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
2
0
64
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Используйте GroupBy.cumcount по модулю и сравните по 1:

out = x[x.groupby('a').cumcount() % 2 == 1]
print (out)
    a   b
1   1   2
3   2   4
6   3   7
8   3   9
10  3  11

Как это работает:

print (x.assign(counter=x.groupby('a').cumcount(),
                mod2 = x.groupby('a').cumcount() % 2,
                mask = x.groupby('a').cumcount() % 2 == 1))
    a   b  counter  mod2   mask
0   1   1        0     0  False
1   1   2        1     1   True
2   2   3        0     0  False
3   2   4        1     1   True
4   2   5        2     0  False
5   3   6        0     0  False
6   3   7        1     1   True
7   3   8        2     0  False
8   3   9        3     1   True
9   3  10        4     0  False
10  3  11        5     1   True
11  3  12        6     0  False

Еще одна идея с iloc в GroupBy.apply:

out = x.groupby('a', group_keys=False)[x.columns].apply(lambda x: x.iloc[1::2])

Спасибо, а может ли что-то подобное работать? x.groupby('a').iloc[::2, :]

Baron Yugovich 10.05.2024 13:28

@BaronYugovich - Тогда должно быть решение x.groupby('a', group_keys=False)[x.columns].apply(lambda x: x.iloc[1::2])

jezrael 10.05.2024 13:32

Другие вопросы по теме

Сохраняйте столбцы и строки, содержащие «FAIL», в фрейме данных pandas
При приеме данных из CSV в XLSX через Pandas и XLSXwriter возникает ошибка отображения чисел в виде текста
Pandas отображает несколько столбцов с помощью фильтра
Как мне извлечь из xml значение «xml:id» в Python, используя ElementTree, в фрейм данных?
Выбор значений экстремальных температур из столбца фрейма данных pandas, где процесс выбора включает в себя несколько усложняющих условий
Использование pandas read_excel с определенной точностью с плавающей запятой, когда текст присутствует в столбцах/строках данных
Как использовать кусочно/частично .diff() или .pct_change() для строк?
Pandas read_json Будущее предупреждение: поведение to_datetime с unit при синтаксическом анализе строк устарело
Как я могу проверить, имеет ли последняя строка кадра данных метку времени между двумя значениями времени?
Сопоставление строки и столбца с числовыми условиями без итерации