Создать счетчик значений даты для заданного максимального-минимального интервала

Будьте следующим python pandas DataFrame:

| date       | column_1 | column_2 |
| ---------- | -------- | -------- |
| 2022-02-01 | val      | val2     |
| 2022-02-03 | val1     | val      |
| 2022-02-01 | val      | val3     |
| 2022-02-04 | val2     | val      |
| 2022-02-27 | val2     | val4     |

Я хочу создать новый DataFrame, где каждая строка имеет значение между минимальным и максимальным значением date из исходного DataFrame. counter column содержит счетчик строк для этой даты.

| date       | counter  |
| ---------- | -------- |
| 2022-02-01 | 2        |
| 2022-02-02 | 0        |
| 2022-02-03 | 1        | 
| 2022-02-04 | 1        |
| 2022-02-05 | 0        |
...
| 2022-02-26 | 0        |
| 2022-02-27 | 1        |

Попытался ли ты? что мешает вам это сделать?

CreepyRaccoon 25.11.2022 16:19
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
1
51
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Сначала подсчитывайте даты и удаляйте дубликаты, используя Удаление дубликатов. Заполнение промежуточных дат с помощью Pandas имеет функцию asfreq для datetimeIndex, это в основном просто тонкая, но удобная оболочка вокруг reindex(), которая генерирует диапазон дат и вызывает переиндекс.

df['counts'] = df['date'].map(df['date'].value_counts())
df = df.drop_duplicates(subset='date', keep = "first")

df.date = pd.to_datetime(df.date)
df = df.set_index('date').asfreq('D').reset_index()
df =  df.fillna(0)
print(df)

Дает #

        date  counts
0  2022-02-01     2.0
1  2022-02-02     0.0
2  2022-02-03     1.0
3  2022-02-04     1.0
4  2022-02-05     0.0
5  2022-02-06     0.0
6  2022-02-07     0.0
7  2022-02-08     0.0
8  2022-02-09     0.0
9  2022-02-10     0.0
10 2022-02-11     0.0
11 2022-02-12     0.0
12 2022-02-13     0.0
13 2022-02-14     0.0
14 2022-02-15     0.0
15 2022-02-16     0.0
16 2022-02-17     0.0
17 2022-02-18     0.0
18 2022-02-19     0.0
19 2022-02-20     0.0
20 2022-02-21     0.0
21 2022-02-22     0.0
22 2022-02-23     0.0
23 2022-02-24     0.0
24 2022-02-25     0.0
25 2022-02-26     0.0
Ответ принят как подходящий

Много способов сделать это. Вот мой. Вероятно, не оптимально, но, по крайней мере, я не повторяю строки и не использую .apply, которые являются верными рецептами для создания медленных решений.

import pandas as pd
import datetime

# A minimal example (you should provide such an example next time)
df=pd.DataFrame({'date':pd.to_datetime(['2022-02-01', '2022-02-03', '2022-02-01', '2022-02-04', '2022-02-27']), 'c1':['val','val1','val','val2','val2'], 'c2':range(5)})

# A delta of 1 day, to create list of date
dt=datetime.timedelta(days=1)

# Result dataframe, with a count of 0 for now
res=pd.DataFrame({'date':df.date.min()+dt*np.arange((df.date.max()-df.date.min()).days+1), 'count':0})

# Cound dates
countDates=df[['date', 'c1']].groupby('date').agg('count')

# Merge the counted dates with the target array, filling missing values with 0
res['count']=res.merge(countDates, on='date', how='left').fillna(0)['c1']

Другие вопросы по теме