У меня есть строка, которая выглядит следующим образом:
sample_string = 'Hello, my name is Bob.\nI like sparkling water.\nMy favorite flavor is mango.\n Goodbye.'
Я хочу сделать две вещи:
У меня с номером 2 все в порядке:
sample_string.replace('\n',' ')
Но я не уверен, как структурировать выражение регулярного выражения, чтобы точно определить первый \n и удалить все символы перед ним.
Окончательная строка должна выглядеть так:
final_string = 'I like sparkling water. My favorite flavor is mango. Goodbye.'
Вы можете использовать, например. sample_string = re.sub(r'(?:^.*)?\n *', ' ', sample_string).strip() См. regex101 для объяснения.
Как бы я адаптировал это для кадра данных pandas?






Вы можете сначала разделить предложение на \n, чтобы разделить предложение:
sample_string = 'Hello, my name is Bob.\nI like sparkling water.\nMy favorite flavor is mango.\n Goodbye.'
sample_string_split = sample_string.split('\n', 1)[1]
Имейте в виду, что [1] не будет работать, если в строке нет \n — проверьте это соответствующим образом.
Затем замените
print(sample_string_split.replace('\n', ' '))
Как мне изменить это для кадра данных pandas?
Есть ровно три разумных способа сделать это: вы можете заставить регулярное выражение соответствовать той части, которую хотите удалить; или вы можете узнать, где соответствует регулярное выражение, и обрезать строку до этой точки; или вы можете использовать подход, не основанный на регулярных выражениях, для удаления первой строки. Каждый из них является дубликатом.