Группируйте элементы в фрейме данных и отображайте их в хронологическом порядке

Рассмотрим следующий фрейм данных, где Date имеет формат DD-MM-YYY:

Date        Time      Table
01-10-2000  13:00:03  B
01-10-2000  13:00:04  A
01-10-2000  13:00:05  B
01-10-2000  13:00:06  A
01-10-2000  13:00:07  B
01-10-2000  13:00:08  A

Как я могу 1) сгруппировать наблюдения по Table, 2) отсортировать строки по Date и Time внутри каждой группы, 3) показать группы в хронологическом порядке согласно Date и Time их первого наблюдения?

Date        Time      Table
01-10-2000  13:00:03  B
01-10-2000  13:00:05  B
01-10-2000  13:00:07  B
01-10-2000  13:00:04  A
01-10-2000  13:00:06  A
01-10-2000  13:00:08  A

Входные данные:

data = {
    'Date': ['01-10-2000', '01-10-2000', '01-10-2000', '01-10-2000', '01-10-2000', '01-10-2000'],
    'Time': ['13:00:03', '13:00:04', '13:00:05', '13:00:06', '13:00:07', '13:00:08'],
    'Table': ['B', 'A', 'B', 'A', 'B', 'A']
}
df = pd.DataFrame(data)

Здесь есть несколько движущихся частей, и это граничит с «несколько вопросов в одном». Для начала, знаете ли вы как конвертировать строки в дату и время? Сделайте это сначала, чтобы вопрос был проще. Во-первых, формат даты совершенно не имеет отношения к проблеме.

— 04.09.2024 23:59

python pandas dataframe sorting group-by

04.09.2024 23:51

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

# Sort by Date and Time
df['DateTime'] = pd.to_datetime(df['Date'] + ' ' + df['Time'], format='%d-%m-%Y %H:%M:%S')
df_sorted = df.sort_values('DateTime')

# Find the first occurrence of each Table group
first_occurrences = df_sorted.groupby('Table', as_index=False).first()

# Sort Table groups according to the Date and Time of their first occurrence
table_order = first_occurrences.sort_values('DateTime')['Table']

# Create categorical version of 'Table' specifying the order of the categories
df_sorted['Table_cat'] = pd.Categorical(df_sorted['Table'], categories=table_order, ordered=True)

# Sort the dataframe
result = df_sorted.sort_values(['Table_cat', 'DateTime'])
result = result.reset_index(drop=True).drop('Table_cat', axis=1)

Вместо groupby, pd.Categorical и т. д. вы можете просто создать столбец DateTime, а затем использовать result = df.sort_values(['Table', 'DateTime'], ascending = [False, True]).drop('DateTime', axis=1), который дает ожидаемый результат.

— 05.09.2024 00:25

04.09.2024 23:59

Ответ принят как подходящий

Используйте groupby.transform и numpy.lexsort:

date = pd.to_datetime(df['Date']+' '+df['Time'])

out = df.iloc[np.lexsort([
    date,
    df['Table'],
    date.groupby(df['Table']).transform('min')
])]

Альтернативно, используя промежуточный столбец:

date = pd.to_datetime(df['Date']+' '+df['Time'])

out = (df.assign(date=date, min_date=date.groupby(df['Table']).transform('min'))
         .sort_values(by=['min_date', 'Table', 'date'])
         .drop(columns=['date', 'min_date'])
     )

Выход:

         Date      Time Table
0  01-10-2000  13:00:03     B
2  01-10-2000  13:00:05     B
4  01-10-2000  13:00:07     B
1  01-10-2000  13:00:04     A
3  01-10-2000  13:00:06     A
5  01-10-2000  13:00:08     A

05.09.2024 00:06

import pandas as pd
import numpy as np

data = {
    'Date': ['01-10-2000', '01-10-2000', '01-10-2000', '01-10-2000', '01-10-2000', '01-10-2000'],
    'Time': ['13:00:03', '13:00:04', '13:00:05', '13:00:06', '13:00:07', '13:00:08'],
    'Table': ['B', 'A', 'B', 'A', 'B', 'A']
}
df = pd.DataFrame(data)
'''
         Date      Time Table
0  01-10-2000  13:00:03     B
1  01-10-2000  13:00:04     A
2  01-10-2000  13:00:05     B
3  01-10-2000  13:00:06     A
4  01-10-2000  13:00:07     B
5  01-10-2000  13:00:08     A
'''

res = df.iloc[np.lexsort(df['Table'].values + 
        pd.to_datetime(df['Date'] + ' ' + df['Time']).astype(str))
        ].reset_index(drop=True)

print(res)
'''
         Date      Time Table
0  01-10-2000  13:00:04     A
1  01-10-2000  13:00:06     A
2  01-10-2000  13:00:08     A
3  01-10-2000  13:00:03     B
4  01-10-2000  13:00:05     B
5  01-10-2000  13:00:07     B
'''

05.09.2024 13:35

Другие вопросы по теме

Операции Pandas между типами с плавающей запятой и NaN

Группировка Python по рангу в двух разных направлениях

Как правильно загрузить json-файл для работы с его данными в Python?

Эффективное преобразование временных меток с учетом часового пояса в datetime64[m] в Pandas

Pandas: добавление нового столбца в MultiIndex

Проверьте, имеет ли серия значения в диапазоне

Счетчик, который начинается заново для определенной переменной

Выбор строк на основе кадра данных Padas с двумя столбцами

Столбец заказа Pandas со списками по парам

Развертывание списка из нескольких столбцов в пандах

Группируйте элементы в фрейме данных и отображайте их в хронологическом порядке

Ответы 3

Другие вопросы по теме

Похожие вопросы