Как я могу найти первое вхождение шаблона в строку с некоторой начальной позиции?

У меня есть строка произвольной длины, и, начиная с позиции p0, мне нужно найти первое вхождение одного из трех трехбуквенных шаблонов.

Предположим, что строка содержит только буквы. Мне нужно найти количество троек, начиная с позиции p0 и прыгая вперед в тройках до первого появления либо «aaa», либо «bbb» или «ccc».

Возможно ли это даже с использованием регулярного выражения?

regex perl string search

23.09.2008 13:41

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

6 067

Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

$string=~/^   # from the start of the string
            (?:.{$p0}) # skip (don't capture) "$p0" occurrences of any character
            (?:...)*?  # skip 3 characters at a time,
                       # as few times as possible (non-greedy)
            (aaa|bbb|ccc) # capture aaa or bbb or ccc as 
         /x;

(Предполагая, что p0 отсчитывается от 0).

Конечно, для перехода вперед, вероятно, более эффективно использовать substr в строке:

substr($string, $p0)=~/^(?:...)*?(aaa|bbb|ccc)/;

будет ли $ 1 содержать количество троек?

— 23.09.2008 13:47

(пожалуйста, не обращайте внимания на мой комментарий выше) хороший, но мне нужно количество пропущенных троек - или, может быть, теперь, когда я знаю первый, я могу найти его pos и просто использовать разницу от p0 в качестве счетчика.

— 23.09.2008 13:59

Нет, $ 1 будет содержать совпавший триплет (aaa, bbb или ccc). Но вы можете использовать $ - [1] для доступа к его начальной позиции.

— 23.09.2008 14:00

Если вам нужно количество начальных троек, просто удалите?: Из парных скобок троек, чтобы они захватывались. Тогда длина ($ 1) / 3 - это количество пропущенных троек. Но ответ Брайана Д Фоя выглядит лучше ...

— 24.09.2008 01:03

23.09.2008 13:44

Вы не можете рассчитывать с помощью регулярных выражений, но вы можете сделать что-то вроде этого:

pos $string = $start_from;
$string =~ m/\G         # anchor to previous pos()
            ((?:...)*?) # capture everything up to the match
            (aaa|bbb|ccc)
            /xs  or die "No match"
my $result = length() / 3;

Но я думаю, что немного быстрее использовать substr () и unpack () для разделения на тройки и обхода троек в цикле for.

(править: это length (), а не lenght () ;-)

23.09.2008 13:56

Ответ принят как подходящий

Мориц говорит, что это может быть быстрее, чем регулярное выражение. Даже если он немного медленнее, в 5 утра это легче понять. :)

             #0123456789.123456789.123456789.  
my $string = "alsdhfaaasccclaaaagalkfgblkgbklfs";  
my $pos    = 9;  
my $length = 3;  
my $regex  = qr/^(aaa|bbb|ccc)/;

while( $pos < length $string )    
    {  
    print "Checking $pos\n";  

    if ( substr( $string, $pos, $length ) =~ /$regex/ )
        {
        print "Found  at $pos\n";
        last;
        }

    $pos += $length;
    }

да, я должен написать KISS на плакате, наклеить его на стену над монитором! Спасибо.

— 23.09.2008 14:56

23.09.2008 14:19

Основная часть этого разделена /(...)/. Но в конце у вас будут данные о ваших позициях и происшествиях.

my @expected_triplets = qw<aaa bbb ccc>;
my $data_string      
    = 'fjeidoaaaivtrxxcccfznaaauitbbbfzjasdjfncccftjtjqznnjgjaaajeitjgbbblafjan'
    ;
my $place          = 0;
my @triplets       = grep { length } split /(...)/, $data_string;
my %occurrence_for = map { $_, [] } @expected_triplets;
foreach my $i ( 0..@triplets ) {
    my $triplet = $triplets[$i];
    push( @{$occurrence_for{$triplet}}, $i ) if exists $occurrence_for{$triplet};
}

Или для простого подсчета с помощью регулярного выражения (используется экспериментальный (?? {}))

my ( $count, %count );
my $data_string      
    = 'fjeidoaaaivtrxxcccfznaaauitbbbfzjasdjfncccftjtjqznnjgjaaajeitjgbbblafjan'
    ;
$data_string =~ m/(aaa|bbb|ccc)(??{ $count++; $count{$^N}++ })/g;

23.09.2008 22:24

Если скорость вызывает серьезную озабоченность, вы можете, в зависимости от того, что это за 3 строки, по-настоящему фантазировать, создав дерево (например, алгоритм Aho-Corasick или аналогичный).

Возможна карта для каждого возможного состояния, например state [0] ['a'] = 0, если ни одна строка не начинается с 'a'.

08.11.2008 00:16