Панды - выделить повторяющиеся строки данных

Чтобы улучшить мой вопрос

Как проверить, одинаковые ли Cntr_No и Total_Amount

HLBU 1234567 и 100 дублируются.

данные:

 df1 = pd.DataFrame({'Cntr_No': ['HLBU 1234567','HLBU 1234567'], 'Total_Amount': [100,100]})
 df2 = pd.DataFrame({'Cntr_No': ['HLBU 1234567','HLBU 1234567'], 'Total_Amount': [100,100]})    

выход:

  Cntr_No         Total_Amount     Duplicate
0  HLBU 1234567           100         Yes
1  HLBU 1234567           100         Yes

не совсем то, чего я хочу достичь, если есть тысячи записей

okl 01.05.2018 13:22

Я пытаюсь создать столбец, чтобы указать, дублирует ли он «Да» или «Нет»

okl 01.05.2018 13:27

Вы получили на это ответ? Вы пробовали что-то вроде df1['Duplicate'] = df1.duplicated(keep=False).map({True:'Yes', False:'No'})

prabhakar 03.05.2018 18:16

@prabhakar спасибо, что тоже работает!

okl 04.05.2018 13:33
1
4
658
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете использовать pd.DataFrame.duplicated, чтобы получить повторяющиеся строки как серию. Ключевое слово keep = False пометит все дубликаты как True. Затем карта переименует значения Истина / Ложь в Да / Нет.

df1['Duplicate'] = df1.duplicated(keep=False).map({True:'Yes', False:'No'})

Другие вопросы по теме