Как предотвратить повторную выборку столбцов идентификатора pandas

У меня есть фрейм данных со столбцами идентификаторов (site_id, type_id, equipment_id), отметкой времени и значением, как показано ниже.

>>>print(df.head())
site_id type_id equipment_id    timestamp                           value 
47      9       332859965468    2018-07-04  10:30:04.052000+10:00   23.000000
47      9       332859965468    2018-07-04  10:30:04.064000+10:00   22.050505
47      9       332859965468    2018-07-04  10:30:04.090000+10:00   26.046154
47      9       332859965468    2018-07-04  10:30:04.101000+10:00   22.000000
47      9       332859965468    2018-07-04  10:30:04.113000+10:00   191.989868

Я пытаюсь выполнить повторную выборку в каждой группе (site_id, type_id, equipment_id), используя следующий код

>>> df = df \
...     .set_index(['timestamp']) \
...     .sort_values(['site_id','type_id','equipment_id','timestamp']) \
...     .groupby(['site_id','type_id','equipment_id']) \
...     .resample('15T') \
...     .mean()

Я получаю неожиданные результаты, все значения id из индекса дублируются. Кажется, используется dtype вместо того, находится ли столбец в индексе или нет для выполнения агрегации? Я что-то не так делаю?

                                                            site_id type_id equipment_id    value
site_id type_id equipment_id    timestamp
47      9       332859965468    2018-07-04 10:30:00+10:00   47.0    9.0     3.328600e+11    58.718625
                                2018-07-04 10:45:00+10:00   47.0    9.0     3.328600e+11    59.175833
                                2018-07-04 11:00:00+10:00   47.0    9.0     3.328600e+11    59.238318
                                2018-07-04 11:15:00+10:00   47.0    9.0     3.328600e+11    58.982763

Обновлено: я заметил, что добавление .reset_index (drop = True) удаляет повторяющиеся столбцы, но теперь проблема в том, что столбцы с целочисленным идентификатором были преобразованы в числа с плавающей запятой?

Я не уверен, но это могло быть намеренное поведение. Причина в том, что .resample(.) может давать строки с NaN из-за пустых сегментов передискретизации. Чтобы в этом убедиться, просто уменьшите период передискретизации. Возможно, вы хотите иметь возможность фильтровать, например, result.site_id.notnull(). Что вы думаете?

— 10.11.2018 23:12

pandas pandas-groupby

09.11.2018 02:01

Learning Data Analytics Two: Filtering data in a DataFrame

В Learning Data Analytics One: Using Python and Pandas , я рассказываю о:

Сиборн не любит даты: вместо них используются ординалы дат

669

Ответы 1

Это происходит с MultiIndex, если индекс не отсортирован. Если вы хотите, чтобы индекс снова выглядел «чистым», вы можете сделать:

df.sort_index(inplace=True)

Например,

df = pd.DataFrame(
    data=np.random.rand(5, 4),
    index=pd.MultiIndex.from_tuples([(i, j) for i, j in zip(np.random.choice(['a', 'b'], 5), np.random.choice(['x', 'y'], 5))])
)
print(df)
print(df.sort_index())

который производит:

            0         1         2         3
a x  0.198659  0.616800  0.438903  0.830216
  y  0.649111  0.860940  0.440068  0.044067
b x  0.178537  0.601514  0.898179  0.140358
  y  0.444738  0.393664  0.877928  0.913228
a x  0.369067  0.944636  0.740877  0.751681
            0         1         2         3
a x  0.198659  0.616800  0.438903  0.830216
  x  0.369067  0.944636  0.740877  0.751681
  y  0.649111  0.860940  0.440068  0.044067
b x  0.178537  0.601514  0.898179  0.140358
  y  0.444738  0.393664  0.877928  0.913228

Но я вижу не это - в моем примере выше столбец site_id появляется дважды. Один раз в индексе и один раз в фрейме данных? Если я изменю его с числового на строковый, он будет работать, как ожидалось

— 10.11.2018 22:53

Ах, извините, да, понятно.

— 10.11.2018 23:08

09.11.2018 03:50