Python Dataframe Merge: проблема с заглавными буквами

Когда я пытаюсь объединить два набора разностных данных на основе значений столбца, я замечаю, что значения столбцов из двух листов будут правильно совпадать, если используются одинаковые заглавные буквы. Однако Python не сможет идентифицировать соответствующее значение для df1 из df2, если используются разные заглавные буквы, даже если строка такая же.

Есть ли способ сделать это без изменения содержимого наборов данных?

merged_df = pd.merge(df1, df2, on=['column1'], how = 'left')
merged_df.drop_duplicates(keep='first', inplace=True)
merged_df.to_csv('report.csv', index=False)

Если используются разные заглавные буквы, строки нет одинаковы. Почему бы вам просто не нормализовать регистр

user3483203 25.10.2018 17:37

Вы можете использовать строковый метод str.lower(), если хотите эффективно игнорировать использование заглавных букв в своих сравнениях. Но да, 'ThisString'!='thisstring'

rahlf23 25.10.2018 17:39

Вы можете использовать left_on и right_on

Rocky Li 25.10.2018 17:40

Есть ли способ реализовать это в операторе слияния?

Tonald Drump 25.10.2018 17:41
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
4
277
2

Ответы 2

Нормализуйте ваши строки до вашего слияния через pd.Series.str.lower. Если по какой-то причине вы не хотите изменять исходные фреймы данных, вы можете использовать pd.DataFrame.assign:

merged_df = pd.merge(df1.assign(column1=df1['column1'].str.lower()),
                     df2.assign(column1=df2['column1'].str.lower()),
                     on='column1', how='left')

Простой для понимания подход,

df1['column1']=df1['column1'].str.lower()
df2['column2']=df2['column2'].str.lower()

Затем продолжайте писать свой код.

Я пойду этим маршрутом, спасибо. Мне просто было интересно, есть ли способ сделать это без изменения содержимого наборов данных.

Tonald Drump 25.10.2018 17:47

@ Ashutosh .. df2['column1']=df2['column1'].str.lower(), просто измените это второе появление ради или для разницы,

Karn Kumar 25.10.2018 17:54

Другие вопросы по теме