Python Dataframe Merge: проблема с заглавными буквами

Когда я пытаюсь объединить два набора разностных данных на основе значений столбца, я замечаю, что значения столбцов из двух листов будут правильно совпадать, если используются одинаковые заглавные буквы. Однако Python не сможет идентифицировать соответствующее значение для df1 из df2, если используются разные заглавные буквы, даже если строка такая же.

Есть ли способ сделать это без изменения содержимого наборов данных?

merged_df = pd.merge(df1, df2, on=['column1'], how = 'left')
merged_df.drop_duplicates(keep='first', inplace=True)
merged_df.to_csv('report.csv', index=False)

Если используются разные заглавные буквы, строки нет одинаковы. Почему бы вам просто не нормализовать регистр

— 25.10.2018 17:37

Вы можете использовать строковый метод str.lower(), если хотите эффективно игнорировать использование заглавных букв в своих сравнениях. Но да, 'ThisString'!='thisstring'

— 25.10.2018 17:39

Вы можете использовать left_on и right_on

— 25.10.2018 17:40

Есть ли способ реализовать это в операторе слияния?

— 25.10.2018 17:41

python string pandas dataframe merge

25.10.2018 17:37

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

277

Ответы 2

Нормализуйте ваши строки до вашего слияния через pd.Series.str.lower. Если по какой-то причине вы не хотите изменять исходные фреймы данных, вы можете использовать pd.DataFrame.assign:

merged_df = pd.merge(df1.assign(column1=df1['column1'].str.lower()),
                     df2.assign(column1=df2['column1'].str.lower()),
                     on='column1', how='left')

25.10.2018 17:41

Простой для понимания подход,

df1['column1']=df1['column1'].str.lower()
df2['column2']=df2['column2'].str.lower()

Затем продолжайте писать свой код.

Я пойду этим маршрутом, спасибо. Мне просто было интересно, есть ли способ сделать это без изменения содержимого наборов данных.

— 25.10.2018 17:47

@ Ashutosh .. df2['column1']=df2['column1'].str.lower(), просто измените это второе появление ради или для разницы,

— 25.10.2018 17:54

25.10.2018 17:45

Другие вопросы по теме

Формат даты в C++

Сравнение символов в двух строках

Чтение с помощью Python CSV, содержащего сложные строки

Разделение строки Python на пробел или предложение внутри круглых скобок

Перебирать теги <p> внутри HTML-строки из базы данных

Почему мое ключевое слово не распознается strpos ()?

Как разбить список строк на основе строки разделителя, которая заканчивается определенным символом в Python?

Как разбить строку на слова и пробелы?

C, имеющий дело со строкой переменной длины

Поиск самой большой строки в массиве строк

Python Dataframe Merge: проблема с заглавными буквами

Ответы 2

Другие вопросы по теме

Похожие вопросы