Эффективный способ найти строку в df2 на основе условия из значения в df1

У меня есть два фрейма данных. df1 содержит ~31 000 строк, а df2 — примерно 117 000 строк. Я хочу добавить столбец в df1 на основе следующих условий.

(df1.id == df2.id) и (df2.min_value < df1.value <= df2.max_value)

Я знаю, что df2 вернет либо 0, либо 1 строку, удовлетворяющую условию для каждого значения id в df1. Для каждой строки в df1 я хочу добавить столбец из df2, когда вышеуказанное условие выполнено.

Мой текущий код выглядит следующим образом. Это построчный подход.

new_df1 = pd.DataFrame(columns = df1.columns.tolist()+[new_col])
for i, row in df1.iterrows():
    val = row['value']
    id = row['id']
    dummy = df2[(df2.id == id) & (df2.max_value >= val) & (df2.min_value < val)]
    if dummy.shape[0] == 0:
        new_col = np.nan
    else:
        new_col = dummy.new_column.values[0]
    l = len(new_df1)
    new_df1.loc[l] = row.tolist()+[new_col]

Это затратный по времени подход. Есть ли способ более эффективно решить эту проблему?

Было бы полезно иметь некоторые образцы данных.

mcsoini 09.04.2022 17:53
Анализ настроения постов в Twitter с помощью Python, Tweepy и Flair
Анализ настроения постов в Twitter с помощью Python, Tweepy и Flair
Анализ настроения текстовых сообщений может быть настолько сложным или простым, насколько вы его сделаете. Как и в любом ML-проекте, вы можете выбрать...
7 лайфхаков для начинающих Python-программистов
7 лайфхаков для начинающих Python-программистов
В этой статье мы расскажем о хитростях и советах по Python, которые должны быть известны разработчику Python.
Установка Apache Cassandra на Mac OS
Установка Apache Cassandra на Mac OS
Это краткое руководство по установке Apache Cassandra.
Сертификатная программа "Кванты Python": Бэктестер ансамблевых методов на основе ООП
Сертификатная программа "Кванты Python": Бэктестер ансамблевых методов на основе ООП
В одном из недавних постов я рассказал о том, как я использую навыки количественных исследований, которые я совершенствую в рамках программы TPQ...
Создание персонального файлового хранилища
Создание персонального файлового хранилища
Вы когда-нибудь хотели поделиться с кем-то файлом, но он содержал конфиденциальную информацию? Многие думают, что электронная почта безопасна, но это...
Создание приборной панели для анализа данных на GCP - часть I
Создание приборной панели для анализа данных на GCP - часть I
Недавно я столкнулся с интересной бизнес-задачей - визуализацией сбоев в цепочке поставок лекарств, которую могут просматривать врачи и...
1
1
33
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете объединить df1 и df2 на основе столбца id:

merged_df = df1.merge(df2, on='id', how='left')

Теперь рядом с любой строкой в ​​DF1, идентификатор которой совпадает с идентификатором строки в DF2, будут размещены все столбцы DF2. Затем вы можете просто отфильтровать объединенный фрейм данных для заданного вами условия:

merged_df.query('max_value > val and min_value < val')

Другие вопросы по теме