Построение фреймов данных pandas с PeriodIndex

У меня проблемы с построением фрейма данных pandas с PeriodIndex.

В моих данных есть пробелы, и я хочу добиться следующего:

  • Зазоры должны оставаться зазорами, без интерполяции;
  • Поскольку каждое значение действительно в течение всего периода времени, значение должно отображаться в виде горизонтальной линии за весь период.
  • Полезно: отсутствие вертикальной линии на границах периодов.

Пример

yearly = pd.DataFrame({'avSpeed': [50, 40, 20, 16]}, index=pd.PeriodIndex(['2014', '2015', '2018', '2019'], freq='A'))

      avSpeed
2014       50
2015       40
2018       20
2019       16

Мой код до сих пор

  • Сделайте фрейм данных без пробелов, заполнив пробелы с помощью NaN (путем повторной выборки с неизменной частотой):

    yearly2 = yearly.resample('A').mean()
    
          avSpeed
    2014     50.0
    2015     40.0
    2016      NaN
    2017      NaN
    2018     20.0
    2019     16.0
    
  • Постройте это с помощью steps-post:

    plt.figure()
    yearly2['avSpeed'].plot(color='red', drawstyle='steps-post')
    

    Построение фреймов данных pandas с PeriodIndex

Чего еще не хватает:

  • Основная проблема: значение за 2019 год отображается только в начале года.
  • Также: присутствуют вертикальные соединительные линии (нежелательные).

Обновлено: Решение

Нет необходимости повышать дискретизацию данных или даже заполнять пробелы с помощью NaN! Я могу построить данные как hlines вот так:

ax=plt.subplot()
ax.hlines(yearly['avSpeed'],  yearly.index.start_time, (yearly.index+1).start_time, 'r') #or: yearly.index.end_time
ax.legend()
plt.show()

Построение фреймов данных pandas с PeriodIndex

Большое спасибо @piRSquared за то, что указал мне правильное направление.

К первому вопросу добавить еще один год (2020) со значением 2019?

Quang Hoang 29.04.2019 16:16

@QuangHoang, спасибо за ваше предложение, но повреждение данных, например, — это гарантированный способ очень быстро запутаться :)

ElRudi 30.04.2019 13:36

@ElRudi Если ответы помогли решить вашу проблему, я был бы признателен за голосование. :)

JE_Muc 07.06.2019 11:43
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
3
820
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Поскольку это только последний период, с которым у вас возникли проблемы, простое добавление нового периода со смещением в 1 год, заполненное nan, решит вашу проблему:

yearly2.loc[yearly2.index[-1] + pd.offsets.YearEnd(1), :] = np.nan

Указание pd.offset с помощью YearEnd сохранит вашу частоту PeriodIndex, которая равна A-DEC при передискретизации/создании PeriodIndex с помощью freq='A'. Для других частот периода, конечно, следует использовать другие смещения.

Спасибо за Ваш ответ. Я немного изменил его на yearly2.loc[yearly.index[-1]+1,:] = np.nan, чтобы он работал и для других частот. Тем не менее, я не фанат, потому что это решает проблему с построением графика с изменением данных, что мне неохота делать.

ElRudi 30.04.2019 11:48
Ответ принят как подходящий

Вы можете использовать hlines с атрибутами pandas.PeriodIndexstart_time и end_time.

ax = plt.subplot()
ax.hlines(yearly, yearly.index.start_time, yearly.index.end_time, 'r', label='avSpeed')
ax.legend()

Действительно хорошее решение. Но это делает построение с легендами более сложным, так как оно будет отображать одну запись в год. Чтобы избежать этого, требуется как минимум еще один LOC.

JE_Muc 29.04.2019 17:31

Спасибо за это. Это выглядит именно так, как я хочу, но, как упоминает @Scotty1-, путает легенду. Кроме того, у меня много подобных ситуаций, так что будет много циклов, хотя я полагаю, что могу написать небольшую функцию для этого. Спасибо!

ElRudi 30.04.2019 11:39

Я нашел лучший способ, передавая данные в виде массивов: ax.hlines(yearly.avSpeed, yearly.index.start_time, (yearly.index+1).start_time, 'r') делает это за один раз, а также создает только одну запись легенды. Я добавлю это к моему вопросу, чтобы я мог также показать изображение. Большое спасибо!

ElRudi 30.04.2019 15:49

Ты меня тоже кое-чему научил. Вы решили использовать yearly.index и yearly.index + 1. Поскольку индекс имеет тип периода, эти значения являются периодами. Вы хотите построить значения даты и времени. Их удобно хранить в атрибутах start_time и end_time. Я предлагаю вам использовать эти значения вместо этого.

piRSquared 30.04.2019 15:53

@ElRudi Я рад, что смог помочь.

piRSquared 30.04.2019 18:29

Другие вопросы по теме