Извлечь текст между двумя датами идентичного формата с помощью Python

Я хочу извлечь действительную транзакцию из набора текста. Каждая транзакция должна начинаться с даты (дд/мм/гггг) и заканчиваться до следующей даты (дд/мм/гггг). Транзакция может иметь 1, 2 или более описаний после даты.

Пример 1 транзакции:

03/04/2024 Payments / Collections 10.08 795.04      ---> Date description cost balance
HU INSURANCE UK                                     ---> Description
G0003406201 56171304 2024-04-17                     ---> Description                   
G3406201                                            ---> Description

Строка ввода

input_text = """
02/04/2024 Funds Transfer 56.00 1,805.12
TOP-UP TO WALLET! :
84343571729
02/04/2024 Bill Payment 1,000.00 805.12
UHJN-5520380040396554 : I-BANK
03/04/2024 Payments / Collections 10.08 795.04
HU INSURANCE UK
G0003406201 56171304 2024-04-17
G3406201
04/04/2024 FAST Payment / Receipt 12,000.00 12,795.04
INVEST
20240404CIBBSTSTBRT3273519
OTHER
04/04/2024 Bill Payment 333.00 12,462.04
GBU -09890340922 : I-BANK
30/04/2024 Interest Earned 0.18 2,385.42
"""

Мой код:

# Regex pattern for dates (dd/mm/yyyy)
date_pattern = r"\d{2}/\d{2}/\d{4}"

# Find all date matches
date_matches = re.findall(date_pattern, input_text)

# Initialize an empty list to store desired output
output = []

# Extract text between dates
for i in range(len(date_matches) - 1):
    start_index = input_text.find(date_matches[i]) + len(date_matches[i])
    end_index = input_text.find(date_matches[i + 1])
    text_between_dates = input_text[start_index:end_index].strip()
    output.append([date_matches[i], text_between_dates])

# Print the desired output
for item in output:
    print(item)

Результат вывода:

['02/04/2024', '']
['02/04/2024', 'Funds Transfer 56.00 1,805.12\nTOP-UP TO WALLET! :\n84343571729\n02/04/2024 Bill Payment 1,000.00 805.12\nUHJN-5520380040396554 : I-BANK']
['03/04/2024', 'Payments / Collections 10.08 795.04\nHU INSURANCE UK\nG0003406201 56171304 2024-04-17\nG3406201']
['04/04/2024', '']
['04/04/2024', 'FAST Payment / Receipt 12,000.00 12,795.04\nINVEST\n20240404CIBBSTSTBRT3273519\nOTHER\n04/04/2024 Bill Payment 333.00 12,462.04\nGBU -09890340922 : I-BANK']

Желаемый результат: (должно быть 6 списков)

['02/04/2024', 'Funds Transfer 56.00 1,805.12', 'TOP-UP TO WALLET! :', '84343571729']
['02/04/2024', 'Bill Payment 1,000.00 805.12', 'UHJN-5520380040396554 : I-BANK']
['03/04/2024', 'Payments / Collections 10.08 795.04', 'HU INSURANCE UK', 'G0003406201 56171304 2024-04-17', 'G3406201']
...
...
['30/04/2024', 'Interest Earned 0.18 2,385.42']

Пожалуйста, предоставьте все 6 списков. Не заставляйте нас заполнять пробелы.

— 30.05.2024 16:20

Ваш расчет для end_index начинается с того же места, что и start_index, поэтому он получит тот же индекс, если у вас есть две последовательные даты, которые совпадают в date_matches. Установите второй параметр find() для end_index равным start_index, и тогда он найдет следующее определенное вхождение.

— 30.05.2024 16:21

Хорошо, вы описали задачу, а в чем вопрос? В конце концов, SO — это сайт вопросов и ответов; посмотрите тур , если вы еще этого не сделали. Возможно, вы хотите спросить что-то вроде: «Как выбрать текст между двумя совпадениями регулярных выражений, если совпавший текст один и тот же?» См. Как спрашивать, чтобы получить советы.

— 30.05.2024 16:25

«заканчивается до следующей даты» — это включает в себя случаи, когда следующей даты нет, да? как в последней строке? Всего лишь уточняю.

— 30.05.2024 16:46

@wjandrea да, это включает в себя случаи, когда нет следующей даты, то есть последней транзакции. Я считаю, что вы сформулировали то, что мне действительно нужно было спросить, поскольку кажется, что проблема возникает, когда есть более одного совпадения.

— 31.05.2024 15:41

python regex

30.05.2024 16:13

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Один из вариантов — использовать re.split, чтобы разбить текст по дате:

import re

input_text = """
02/04/2024 Funds Transfer 56.00 1,805.12
TOP-UP TO WALLET! :
84343571729
02/04/2024 Bill Payment 1,000.00 805.12
UHJN-5520380040396554 : I-BANK
03/04/2024 Payments / Collections 10.08 795.04
HU INSURANCE UK
G0003406201 56171304 2024-04-17
G3406201
04/04/2024 FAST Payment / Receipt 12,000.00 12,795.04
INVEST
20240404CIBBSTSTBRT3273519
OTHER
04/04/2024 Bill Payment 333.00 12,462.04
GBU -09890340922 : I-BANK
30/04/2024 Interest Earned 0.18 2,385.42
"""

# Build an iterator of the text splitting on lines starting with the date.
i = iter(re.split(r'\s*^(\d{2}/\d{2}/\d{4})\s*', input_text, flags=re.MULTILINE))
next(i)  # Skip the first empty string.
for date in i:  # read the date
    lines = next(i).splitlines()  # get the lines after the date
    print([date, *lines])

Выход:

['02/04/2024', 'Funds Transfer 56.00 1,805.12', 'TOP-UP TO WALLET! :', '84343571729']
['02/04/2024', 'Bill Payment 1,000.00 805.12', 'UHJN-5520380040396554 : I-BANK']
['03/04/2024', 'Payments / Collections 10.08 795.04', 'HU INSURANCE UK', 'G0003406201 56171304 2024-04-17', 'G3406201']
['04/04/2024', 'FAST Payment / Receipt 12,000.00 12,795.04', 'INVEST', '20240404CIBBSTSTBRT3273519', 'OTHER']
['04/04/2024', 'Bill Payment 333.00 12,462.04', 'GBU -09890340922 : I-BANK']
['30/04/2024', 'Interest Earned 0.18 2,385.42']

30.05.2024 17:54

Другие вопросы по теме

Извлечь все символы от начала строки до первых 5 цифр последней части строки?

Как найти имена файлов с непечатаемыми символами, используя «поиск» в macOS?

Преобразование строкового вектора широты и долготы в фрейм данных

SQL-поиск строкового/числового формата в предложенииwhere

Проверка значений по строкам, чтобы назначить продукту правильный рабочий центр

Как создать RegExp, соответствующий любой начальной части RegExp?

Создайте текстовое поле, которое блокирует все специальные символы, но позволяет использовать некоторые из них

Создание функций регулярных выражений вручную

Как использовать список шаблонов в более длинном имени пути в cronjob?

Как получить совпадающий шаблон в Ugrep

Извлечь текст между двумя датами идентичного формата с помощью Python

Ответы 1

Другие вопросы по теме

Похожие вопросы