Регулярное выражение для сложного имени файла

Я изо всех сил пытался правильно отформатировать регулярное выражение, чтобы вытащить первую дату в следующем имени файла:

TEST_2022-03-04-05-30-20.csv_parsed.csv_encrypted.csv

Я выполнил следующее и ожидал, что извлеку первую дату в каждом имени файла, отформатированном как 2022-03-04

date = re.search('\b(\d{4}-\d{2}-\d{2}).', имя файла)

Я получил следующую ошибку в строке поиска: >AttributeError: объект «NoneType» не имеет атрибута «группа».

Ответ ниже полезен и решил проблему. Это ценный ресурс для изучения того, как использовать поиск по регулярным выражениям.

в чем смысл group(0)?

cyberghost 29.03.2023 18:34

Эта ошибка означает, что регулярное выражение не соответствует. Вам нужно проверить возвращаемое значение, прежде чем пытаться получить группу.

Barmar 29.03.2023 18:40

Я считаю, что группа (0) возвращает полную строку, совпавшую с регулярным выражением

S.Martinelli 29.03.2023 18:40

В этом каталоге должны быть файлы, в именах которых нет дат.

Barmar 29.03.2023 18:41

Спасибо, Бармар, это моя задача, я новичок в регулярных выражениях и не могу понять, как правильно искать имена файлов, основываясь на моей цели выше. Поскольку он ничего не находит, кажется, я неправильно ищу имена файлов с кодом, следующим за re.search

S.Martinelli 29.03.2023 18:42

Все файлы в каталоге соответствуют формату в приведенном выше примере и имеют даты.

S.Martinelli 29.03.2023 18:46
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
4
6
53
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Вам нужно проверить, совпало ли регулярное выражение, прежде чем углубиться и попытаться извлечь совпадающий текст.

for filename in filenames:
    match = re.search(r'\b(\d{4}-\d{2}-\d{2})\.', filename)
    if not match:
        continue
    date = match.group(1)
    ...

Обратите также внимание на использование необработанной строки r'...' и использование group(1) только для извлечения совпадения из выражения в скобках.

Ответ принят как подходящий

Есть несколько проблем с вашим регулярным выражением.

Во-первых, само регулярное выражение неверно:

\b       # Match a word boundary (non-word character followed by word character or vice versa)
(        # followed by a group which consists of
  \d{4}- # 4 digits and '-', then
  \d{2}- # 2 digits and '-', then
  \d{2}  # another 2 digits
)        # and eventually succeeded by
\.       # a dot

Поскольку у вашего filename (TEST_2022-03-04-05-30-20.csv_parsed.csv_encrypted.csv) нет такой группы, re.search() терпит неудачу и возвращает None. Вот почему:

  • 2022-03-04 не следует после точки
  • \b не соответствует, так как и _, и 2 считаются символом слова.

При этом регулярное выражение следует изменить, например:

(?<=_)   # Match something preceded by '_', which will not be included in our match,
\d{4}-   # 4 digits and '-', then
\d{2}-   # 2 digits and '-', then
\d{2}    # another 2 digits, then
\b       # a word boundary

Теперь вы видите эти обратные косые черты? Всегда помните, что вам нужно снова экранировать их в строках. Это можно автоматизировать с помощью необработанных строк:

r'(?<=_)\d{4}-\d{2}-\d{2}\b'

Попробуй это:

filename = 'TEST_2022-03-04-05-30-20.csv_parsed.csv_encrypted.csv'
match = re.search(r'(?<=_)\d{4}-\d{2}-\d{2}\b', filename).group(0)

print(match) # '2022-03-04'

Это решило мою проблему с исследованиями, спасибо за разъяснения.

S.Martinelli 29.03.2023 19:17

Другие вопросы по теме

Извлечение нескольких строк из строки Pandas (одна ячейка) в столбцы с определенным начальным и конечным текстом
Шаблон регулярного выражения, который соответствует всем словам, начинающимся со слова с буквы s и заканчивающимся перед словом, начинающимся с буквы s
Как конвертировать в Notepad++ с помощью регулярных выражений?
Маскировка адреса электронной почты с помощью рег-выражения
Как удалить несколько файлов после сопоставления через REGEX с помощью CMD/PowerShell в Windows?
Jq regex test() выбирает неожиданные значения
Как найти и получить полное имя файла с изменяемым суффиксом даты
Как проверить, совпадает ли какая-либо строка или регулярное выражение из массива во входной строке?
Как убедиться, что необязательные части шаблона встречаются хотя бы один раз?
Регулярное выражение, в котором двоичные числа не имеют единиц, а нули следуют друг за другом напрямую