Удаление префикса из столбца имен в python

у меня есть этот набор данных

ID      Name     
101    DR. ADAM SMITH
102    BEN DAVIS
103    MRS. ASHELY JOHNSON
104    DR. CATHY JONES 
105    JOHN DOE SMITH

Желаемый результат

ID        Name 
101     ADAM SMITH
102     BEN DAVIS
103     ASHELY JOHNSON
104     CATHY JONES
105     JOHN DOE SMITH

Мне нужно избавиться от префикса Я пробовал df['Name'] = df['Name'].replace(to_replace = 'DR. ', value = '')Я повторил один и тот же код для всех префиксов, но у меня при этом ничего не происходит. Любая причина для этого?

Заранее спасибо.

Используйте регулярное выражение, чтобы удалить слово, оканчивающееся на ..

— 01.06.2023 22:15

python python-3.x pandas dataframe

01.06.2023 22:11

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 6

Вы можете использовать регулярное выражение для замены части строки. Например:

df['Name'] = df['Name'].str.replace(r'^(?:DR|MRS?)\.\s*', '', regex=True)
print(df)

Отпечатки:

    ID            Name
0  101      ADAM SMITH
1  102       BEN DAVIS
2  103  ASHELY JOHNSON
3  104     CATHY JONES
4  105  JOHN DOE SMITH

Примечание: .replace(r'DR. ', '') пытается заменить всю DR. пустой строкой, а не только ее часть.

Что, если бы строка была "MR. JOHN SMITH"?

— 01.06.2023 23:12

@TheTridentGuy Вот почему я добавил ? в регулярное выражение. Он будет соответствовать DR, MR и MRS

— 01.06.2023 23:15

01.06.2023 22:15

Используйте регулярное выражение:

import re

name = "DR. ADAM SMITH"
print(re.sub(r".*\.\s", "", name)) # ADAM SMITH

Это выражение соответствует всему, что заканчивается точкой и пробелом, и должно соответствовать большинству префиксов («DR.», «MRS.», «MR.» и т. д.). Вы можете интегрировать его в свой код следующим образом:

Добавьте строку import re вверху вашего кода.
Используйте строку df['Name'] = re.sub(r".*\.\s", "", df['Name']) вместо df['Name'] = df['Name'].replace(to_replace = 'DR. ', value = '')

Подробнее о регулярных выражениях см.: https://www.w3schools.com/python/python_regex.asp

01.06.2023 22:16

Ответ принят как подходящий

Используйте регулярное выражение для соответствия первому слову, если оно заканчивается на ..

df['Name'] = df['Name'].str.replace(r'^[A-Z]+\.\s+', '', regex=True)

Я не эксперт по регулярным выражениям, но будет ли это работать, если строка в нижнем регистре?

— 01.06.2023 22:23

Нет, не будет, но все примеры в верхнем регистре. Вы можете использовать case=False, чтобы сделать его нечувствительным к регистру.

— 01.06.2023 22:28

01.06.2023 22:16

Вы были почти там. Вам нужно было добавить .str:

df['Name'] = df['Name'].str.replace('DR. ', '')

Это не заменит "MRS.", как хотел ОП.

— 01.06.2023 22:21

01.06.2023 22:17

''' # Образец данных данные = { «ID»: [101, 102, 103, 104, 105], 'Имя': ['ДР. АДАМ СМИТ», «БЕН ДЭВИС», «МИССИС. ЭШЛИ ДЖОНСОН», «ДР. КЭТИ ДЖОНС, ДЖОН ДОУ СМИТ] }

# Create a DataFrame
df = pd.DataFrame(data)

# Function to remove prefixes from names
def remove_prefix(name):
    prefixes = ['DR.', 'MRS.', 'MR.', 'MS.']  # Add more prefixes if needed
    for prefix in prefixes:
        if name.startswith(prefix):
            return name[len(prefix)+1:]
    return name

# Apply the function to the 'Name' column
df['Name'] = df['Name'].apply(remove_prefix)

# Print the modified DataFrame
print(df)

'''

Как сейчас написано, ваш ответ неясен. Пожалуйста, отредактируйте , чтобы добавить дополнительные сведения, которые помогут другим понять, как это отвечает на заданный вопрос. Вы можете найти больше информации о том, как писать хорошие ответы в справочном центре.

— 02.06.2023 00:33

01.06.2023 22:25

Причина, по которой ничего не происходит, когда вы используете функцию replace(), заключается в том, что она обрабатывает ввод как литеральную строку и ищет точное совпадение.

В вашем случае значения в столбце «Имя» содержат дополнительные пробелы до и после префиксов, поэтому точное совпадение не найдено.

Чтобы решить эту проблему, вы можете использовать регулярные выражения (регулярные выражения) из модуля re, чтобы удалить префиксы из столбца «Имя»:

import re
import pandas as pd

data = {
    'ID': [101, 102, 103, 104, 105],
    'Name': ['DR. ADAM SMITH', 'BEN DAVIS', 'MRS. ASHELY JOHNSON', 'DR. CATHY JONES', 'JOHN DOE SMITH']
}

df = pd.DataFrame(data)
df['Name'] = df['Name'].apply(lambda x: re.sub(r'\b(?:DR\.|MRS\.)\s*', '', x))

print(df)

01.06.2023 22:35

Другие вопросы по теме

Алгоритм для расчета скорости движения, чтобы прибыть в x оборотов

Как отсортировать элементы массива на основе ближайшего вхождения подсписка с числовым значением 1,0? А затем объединить эту отсортированную матрицу с другой

Заполнение нулями до и после десятичной точки

Как сделать столбец во фрейме данных функцией двух других столбцов в пандах?

Бот Discord отключается и перестает отвечать

Вложенный словарь Python

Модульное тестирование функций Azure с помощью FastAPI и Python

Как я могу создать рабочий процесс задачи в Airflow на основе списка?

Заполнение отсутствующих значений по имени. панды

Извлечение данных из двух отдельных файлов и запись в третий файл csv

Удаление префикса из столбца имен в python

Ответы 6

Другие вопросы по теме

Похожие вопросы