У меня есть следующий код:
currencies = ['USD', 'GBP', 'EUR', 'JPY', 'CHF', 'SEK', 'DKK', 'NOK', 'SGD', 'HKD', 'AUD', 'TWD', 'NZD', 'CNY', 'KRW', 'INR', 'CAD', 'VEF', 'EGP', 'THB', 'IDR', 'PKR', 'MYR', 'PHP', 'MXN', 'VND', 'CZK', 'HUF', 'PLN', 'TRY', 'ZAR', 'ILS', 'ARS', 'CLP', 'BRL', 'RUB', 'QAR', 'AED', 'COP', 'PEN', 'CNH', 'KWD', 'SAR']
exclusive_regexp = ".*/" + ".*|.*/".join(currencies) + ".*"
searching_regexp = "^(?! (" + exclusive_regexp + ")$)(.*/.*)$"
searching_regexp = re.compile(searching_regexp)
with open('raw.txt', 'r') as unprocessed_ticks:
print(re.findall(searching_regexp, unprocessed_ticks.read()))
Он должен найти все строки, которые могут быть сопоставлены с созданным регулярным выражением.
Я проверил сгенерированное регулярное выражение с помощью онлайн-инструмента regex101.com. он работает с ароматом python. Но в реальном коде он ничему не соответствует: https://regex101.com/r/70uiuE/7 Почему это может произойти?
Разве \ не escape-символ в python, поэтому вам нужно дважды экранировать его?
Какой текст вы ожидаете, что это будет соответствовать? Косая черта не должна быть экранирована обратной косой чертой в Python.
.*
, который вы так щедро посыпаете, вероятно, приводит к тому, что это соответствует более, чем вы предполагали.
Думаю, exclusive_regexp = "/(?:{})".format("|".join(currencies))
с searching_regexp = "^(?! .*" + exclusive_regexp + ")[^/]*/.*$"
тоже сработает. Просто передайте re.M
флаг.
@WiktorStribiżew работает, спасибо! Не могли бы вы сформировать это как ответ? Я закрою вопрос, выбрав ваш ответ.
Несколько моментов:
/
в Python (и любых других) шаблонах нить (/
следует экранировать только тогда, когда регулярное выражение установлено через литерал регулярного выражения с косой чертой, используемой в качестве разделителей регулярных выражений).*
, вам следует свести к минимуму количество альтернатив, совпадающих в одном и том же месте в строке.^
и $
соответствовали началу и концу строки, вы должны передать флаг re.M
или re.MULTILINE
регулярному выражению.Я предлагаю изменить регулярные выражения на
exclusive_regexp = r"/(?:{})".format("|".join(currencies))
searching_regexp = re.compile(r"^(?! .*" + exclusive_regexp + ")[^/\n]*/.*", re.M)
а потом
print(searching_regexp.findall(unprocessed_ticks.read()))
Регулярное выражение exclusive_regexp
теперь будет выглядеть аккуратнее (/(?:USD|GBP|EUR|JPY|CHF|SEK|DKK|NOK|SGD|HKD|AUD|TWD|NZD|CNY|KRW|INR|CAD|VEF|EGP|THB|IDR|PKR|MYR|PHP|MXN|VND|CZK|HUF|PLN|TRY|ZAR|ILS|ARS|CLP|BRL|RUB|QAR|AED|COP|PEN|CNH|KWD|SAR)
), а searching_regexp
будет соответствовать любой строке, которая начинается с 0+ символов, кроме /
, затем содержит /
, а затем любое количество любых символов, кроме новой строки ([^/\n]*/.*
), которая не начинается с пробела. , /
и значение валюты.
См. демонстрация Python.
подозреваю
re.findall(searching_regexp, unprocessed_ticks.read(), re.M)