Как циклически перебирать токены с разделителями с помощью регулярного выражения?

Как я могу создать регулярное выражение, которое будет извлекать текст с разделителями из строки? Например, учитывая строку вида

text ###token1### text text ###token2### text text

Мне нужно регулярное выражение, которое вытащит ###token1###. Да, мне тоже нужен разделитель. Добавив еще одну группу, я могу получить и то, и другое:

(###(.+?)###)

regex

17.09.2008 00:11

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

2 930

Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

Ответ принят как подходящий

/###(.+?)###/

если вы хотите ###, тогда вам нужно

/(###.+?###)/

? означает не жадный, если бы у вас не было ?, то он захватил бы слишком много.

например '###token1### text text ###token2###' будет схвачен.

В моем первоначальном ответе был * вместо +. * означает 0 или больше. + означает 1 или более. * был неправильным, потому что это позволило бы найти ###### как действительную вещь.

Для игры с регулярными выражениями. Я настоятельно рекомендую http://www.weitz.de/regex-coach/ для Windows. Вы можете ввести нужную строку и свое регулярное выражение и посмотреть, что оно на самом деле делает.

Выбранный текст будет сохранен в \ 1 или $ 1 в зависимости от того, где вы используете свое регулярное выражение.

Просто обратите внимание, что в Java это будет в группе (1) из экземпляра сопоставления после последнего вызова find ()

— 17.09.2008 00:20

17.09.2008 00:13

Предполагая, что вы также хотите сопоставить ### token2 ### ...

/###.+###/

17.09.2008 00:14

Используйте () и \ x. Наивный пример, предполагающий, что текст внутри токенов всегда разделен символом #:

text (#+.+#+) text text (#+.+#+) text text

Затем содержимое () можно получить, используя \ 1 и \ 2 (\ 1 для первого набора, \ 2 для второго в выражении замены (при условии, что вы выполняете поиск / замену в редакторе). Например, выражение замены может быть таким:

token1: , token2:

В приведенном выше примере это должно дать:

token1: ###token1###, token2: ###token2###

Если вы используете библиотеку регулярных выражений в программе, вы, вероятно, вызовете функцию, чтобы получить содержимое первого и второго токенов, которые вы указали с помощью () вокруг них.

17.09.2008 00:19

Что ж, когда вы используете такие разделители, как этот, в основном вы просто берете первый, а затем все, что не соответствует конечному разделителю, за которым следует конечный разделитель. Особое внимание следует обратить на то, что в случаях, подобных приведенному выше примеру, [^ #] не будет работать как проверка, чтобы убедиться, что конечный разделитель отсутствует, поскольку одиночный # приведет к сбою регулярного выражения (например, "### foo # bar # ##). В случае выше регулярного выражения для синтаксического анализа это будет следующее предположение, что пустые токены разрешены (если нет, измените * на +):

### ([^ #] | # [^ #] | ## [^ #]) * ###

17.09.2008 00:20

В Perl вам действительно нужно что-то вроде этого:

$text = 'text ###token1### text text ###token2### text text';

while($text =~ m/###(.+?)###/g) {
  print , "\n";
}

Что даст вам каждый токен по очереди в цикле while. (. *?) Гарантирует, что вы получите бит самый короткий между разделителями, не позволяя ему думать, что токен является 'token1 ### text text ### token2'.

Или, если вы просто хотите их сохранить, не зацикливайтесь сразу: