Как выполнять функции, которые ссылаются на предыдущую строку в подмножестве данных в фрейме данных, используя groupby

У меня есть некоторые данные журнала, которые представляют элемент (идентификатор) и отметку времени начала действия, и я хочу определить время между действиями над каждым элементом.

например, у меня есть некоторые данные, которые выглядят так:

data = [{"timestamp":"2019-05-21T14:17:29.265Z","id":"ff9dad92-e7c1-47a5-93a7-6e49533a6e25"},{"timestamp":"2019-05-21T14:21:49.722Z","id":"ff9dad92-e7c1-47a5-93a7-6e49533a6e25"},{"timestamp":"2019-05-21T15:16:25.695Z","id":"ff9dad92-e7c1-47a5-93a7-6e49533a6e25"},{"timestamp":"2019-05-21T15:16:25.696Z","id":"ff9dad92-e7c1-47a5-93a7-6e49533a6e25"},{"timestamp":"2019-05-22T07:51:17.49Z","id":"ff12891e-5786-438b-891c-abd4244723b4"},{"timestamp":"2019-05-22T08:11:13.948Z","id":"ff12891e-5786-438b-891c-abd4244723b4"},{"timestamp":"2019-05-22T11:52:59.897Z","id":"ff12891e-5786-438b-891c-abd4244723b4"},{"timestamp":"2019-05-22T11:53:03.406Z","id":"ff12891e-5786-438b-891c-abd4244723b4"},{"timestamp":"2019-05-22T11:53:03.481Z","id":"ff12891e-5786-438b-891c-abd4244723b4"},{"timestamp":"2019-05-21T14:23:08.147Z","id":"fe55bb22-fe5b-4b12-8aaf-d5f0320ac7fa"},{"timestamp":"2019-05-21T14:29:18.228Z","id":"fe55bb22-fe5b-4b12-8aaf-d5f0320ac7fa"},{"timestamp":"2019-05-21T15:17:09.831Z","id":"fe55bb22-fe5b-4b12-8aaf-d5f0320ac7fa"},{"timestamp":"2019-05-21T15:17:09.834Z","id":"fe55bb22-fe5b-4b12-8aaf-d5f0320ac7fa"},{"timestamp":"2019-05-21T14:02:19.072Z","id":"fd3554cd-b83d-49af-a8e6-7bf41c741cd0"},{"timestamp":"2019-05-21T14:02:34.867Z","id":"fd3554cd-b83d-49af-a8e6-7bf41c741cd0"},{"timestamp":"2019-05-21T14:12:28.877Z","id":"fd3554cd-b83d-49af-a8e6-7bf41c741cd0"},{"timestamp":"2019-05-21T15:19:19.567Z","id":"fd3554cd-b83d-49af-a8e6-7bf41c741cd0"},{"timestamp":"2019-05-21T15:19:19.582Z","id":"fd3554cd-b83d-49af-a8e6-7bf41c741cd0"},{"timestamp":"2019-05-21T09:58:02.185Z","id":"f89c2e3e-06dc-467b-813b-dc92f2692f63"},{"timestamp":"2019-05-21T10:07:24.044Z","id":"f89c2e3e-06dc-467b-813b-dc92f2692f63"}]
stack = pd.DataFrame(data)
stack.head()

Как выполнять функции, которые ссылаются на предыдущую строку в подмножестве данных в фрейме данных, используя groupby

Я попытался получить все уникальные идентификаторы, чтобы разделить фрейм данных, а затем получить время, затрачиваемое индексом на рекомбинацию с исходным набором, например, но функция очень медленная на больших наборах данных и портит как индекс и порядок временных меток, приводящий к несовпадению результатов.

import ciso8601 as time
records = []
for i in list(stack.id.unique()):
    dff = stack[stack.id == i]
    time_taken = []
    times = []
    i = 0
    for _, row in dff.iterrows():
        if bool(times):
            print(_)
            current_time = time.parse_datetime(row.timestamp)
            prev_time = times[i]
            time_taken = current_time - prev_time
            times.append(current_time)
            i+=1
            records.append(dict(index = _, time_taken = time_taken.seconds))
        else:
            records.append(dict(index = _, time_taken = 0))
            times.append(time.parse_datetime(row.timestamp))

x = pd.DataFrame(records).set_index('index')
stack.merge(x, left_index=True, right_index=True, how='inner')

Как выполнять функции, которые ссылаются на предыдущую строку в подмножестве данных в фрейме данных, используя groupby

Есть ли аккуратный способ группировки панд и способ применения, чтобы мне не приходилось разбивать кадр и сохранять его в памяти, чтобы он мог ссылаться на предыдущую строку в подмножестве?

Спасибо

Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
0
24
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Вы можете использовать GroupBy.diff:

stack['timestamp'] = pd.to_datetime(stack['timestamp'])
stack['timestamp']= (stack.sort_values(['id','timestamp'])
                            .groupby('id')
                            .diff()['timestamp']
                            .dt.total_seconds()
                            .round().fillna(0))

print(stack['time_taken'])
0         0.0
1       260.0
2      3276.0
3         0.0
4         0.0
5      1196.0
6     13306.0
7         4.0
8         0.0
9         0.0
10      370.0
11     2872.0
...

Если вы хотите, чтобы результирующий фрейм данных был упорядочен по дате, вместо этого выполните:

stack['timestamp'] = pd.to_datetime(stack['timestamp']) 
stack = stack.sort_values(['id','timestamp'])
stack['time_taken'] = (stack.groupby('id')
                            .diff()['timestamp'] 
                            .dt.total_seconds() 
                            .round()
                            .fillna(0))

Хм я думаю должно быть так же но в моем случае окончательный df не заказан. Но да, я думаю, упорядоченный результат был бы более желательным @jez. Но также это не будет соответствовать ожидаемому результату

yatu 27.05.2019 16:16

Если не нужно заменять метку времени на дату и время, создайте серию, заполненную датой и временем, с помощью to_datetime и перейдите к DataFrameGroupBy.diff, затем преобразуйте в секунды с помощью Series.dt.total_seconds, при необходимости округлите с помощью Series.round и замените отсутствующие значения на 0:

t = pd.to_datetime(stack['timestamp'])
stack['time_taken'] = t.groupby(stack['id']).diff().dt.total_seconds().round().fillna(0)

print (stack)
                                      id                 timestamp  time_taken
0   ff9dad92-e7c1-47a5-93a7-6e49533a6e25  2019-05-21T14:17:29.265Z         0.0
1   ff9dad92-e7c1-47a5-93a7-6e49533a6e25  2019-05-21T14:21:49.722Z       260.0
2   ff9dad92-e7c1-47a5-93a7-6e49533a6e25  2019-05-21T15:16:25.695Z      3276.0
3   ff9dad92-e7c1-47a5-93a7-6e49533a6e25  2019-05-21T15:16:25.696Z         0.0
4   ff12891e-5786-438b-891c-abd4244723b4   2019-05-22T07:51:17.49Z         0.0
5   ff12891e-5786-438b-891c-abd4244723b4  2019-05-22T08:11:13.948Z      1196.0
6   ff12891e-5786-438b-891c-abd4244723b4  2019-05-22T11:52:59.897Z     13306.0
7   ff12891e-5786-438b-891c-abd4244723b4  2019-05-22T11:53:03.406Z         4.0
8   ff12891e-5786-438b-891c-abd4244723b4  2019-05-22T11:53:03.481Z         0.0
9   fe55bb22-fe5b-4b12-8aaf-d5f0320ac7fa  2019-05-21T14:23:08.147Z         0.0
10  fe55bb22-fe5b-4b12-8aaf-d5f0320ac7fa  2019-05-21T14:29:18.228Z       370.0
11  fe55bb22-fe5b-4b12-8aaf-d5f0320ac7fa  2019-05-21T15:17:09.831Z      2872.0
12  fe55bb22-fe5b-4b12-8aaf-d5f0320ac7fa  2019-05-21T15:17:09.834Z         0.0
13  fd3554cd-b83d-49af-a8e6-7bf41c741cd0  2019-05-21T14:02:19.072Z         0.0
14  fd3554cd-b83d-49af-a8e6-7bf41c741cd0  2019-05-21T14:02:34.867Z        16.0
15  fd3554cd-b83d-49af-a8e6-7bf41c741cd0  2019-05-21T14:12:28.877Z       594.0
16  fd3554cd-b83d-49af-a8e6-7bf41c741cd0  2019-05-21T15:19:19.567Z      4011.0
17  fd3554cd-b83d-49af-a8e6-7bf41c741cd0  2019-05-21T15:19:19.582Z         0.0
18  f89c2e3e-06dc-467b-813b-dc92f2692f63  2019-05-21T09:58:02.185Z         0.0
19  f89c2e3e-06dc-467b-813b-dc92f2692f63  2019-05-21T10:07:24.044Z       562.0

Или, если нужно заменить метку времени на дату и время, используйте ответ @yatu.

Будет ли результат groupby естественным образом упорядочен по отметке времени?

Johny Mudly 27.05.2019 15:53

Эти ответы предполагают, что дата и время упорядочены

yatu 27.05.2019 15:59

Проверьте обновление в моем ответе @JohnyMudly. Сначала вам нужно отсортировать значения, если порядок не гарантируется

yatu 27.05.2019 16:08

Другие вопросы по теме