Регулярное выражение для соответствия неаккуратным дробям / смешанным числам

У меня есть серия текста, содержащая смешанные числа (например, целая часть и дробная часть). Проблема в том, что текст полон небрежности, закодированной человеком:

Часть может существовать, а может и не существовать (например, "10")
Дробная часть может существовать или не существовать (например, "1/3")
Две части могут быть разделены пробелами и / или дефисами (например: «10 1/3», «10-1 / 3», «10 - 1/3»).
Сама дробь может иметь или не иметь пробелов между числом и косой чертой (например: «1/3», «1/3», «1/3»).
После дроби может быть другой текст, который нужно игнорировать

Мне нужно регулярное выражение, которое может анализировать эти элементы, чтобы я мог создать правильное число из этого беспорядка.

У меня уже есть регулярное выражение решения, и оно работает очень хорошо, поэтому я собираюсь поделиться им с SO в надежде, что это сэкономит кому-то еще много работы.

— 29.10.2008 03:14

Для какого языка и / или механизма регулярных выражений он предназначен?

— 30.10.2008 07:21

Это было для Java, но с RegexBuddy я мог бы легко установить его на любое количество движков.

— 21.12.2009 20:40

regex

29.10.2008 03:13

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

5 194

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Ответ принят как подходящий

Вот регулярное выражение, которое будет обрабатывать все данные, которые я могу ему передать:

(\d++(?! */))? *-? *(?:(\d+) */ *(\d+))?.*$

Это поместит цифры в следующие группы:

Вся часть смешанного числа, если оно существует
Числитель, если выходит дробь
Знаменатель, если дробь существует

Кроме того, вот объяснение элементов в RegexBuddy (которое мне очень помогло при его создании):

Match the regular expression below and capture its match into backreference number 1 «(\d++(?! */))?»
   Between zero and one times, as many times as possible, giving back as needed (greedy) «?»
   Match a single digit 0..9 «\d++»
      Between one and unlimited times, as many times as possible, without giving back (possessive) «++»
   Assert that it is impossible to match the regex below starting at this position (negative lookahead) «(?! */)»
      Match the character “ ” literally « *»
         Between zero and unlimited times, as many times as possible, giving back as needed (greedy) «*»
      Match the character “/” literally «/»
Match the character “ ” literally « *»
   Between zero and unlimited times, as many times as possible, giving back as needed (greedy) «*»
Match the character “-” literally «-?»
   Between zero and one times, as many times as possible, giving back as needed (greedy) «?»
Match the character “ ” literally « *»
   Between zero and unlimited times, as many times as possible, giving back as needed (greedy) «*»
Match the regular expression below «(?:(\d+) */ *(\d+))?»
   Between zero and one times, as many times as possible, giving back as needed (greedy) «?»
   Match the regular expression below and capture its match into backreference number 2 «(\d+)»
      Match a single digit 0..9 «\d+»
         Between one and unlimited times, as many times as possible, giving back as needed (greedy) «+»
   Match the character “ ” literally « *»
      Between zero and unlimited times, as many times as possible, giving back as needed (greedy) «*»
   Match the character “/” literally «/»
   Match the character “ ” literally « *»
      Between zero and unlimited times, as many times as possible, giving back as needed (greedy) «*»
   Match the regular expression below and capture its match into backreference number 3 «(\d+)»
      Match a single digit 0..9 «\d+»
         Between one and unlimited times, as many times as possible, giving back as needed (greedy) «+»
Match any single character that is not a line break character «.*»
   Between zero and unlimited times, as many times as possible, giving back as needed (greedy) «*»
Assert position at the end of the string (or before the line break at the end of the string, if any) «$»

деталь .*$ бессмысленна, она просто выбрасывает то, что ей соответствует. Просто удали его. В остальном это не так уж плохо.

— 30.10.2008 07:13

Я искал похожее решение, и это то, что мне понравилось: regexlib.com/REDetails.aspx?regexp_id=2127

— 21.12.2009 20:41

29.10.2008 03:16

Я думаю, что может быть проще рассматривать разные случаи (полностью смешанные, только дробные, только числовые) отдельно друг от друга. Например:

sub parse_mixed {
  my($mixed) = @_;

  if ($mixed =~ /^ *(\d+)[- ]+(\d+) */ *(\d)+(\D.*)?$/) {
    return $1+$2/$3;
  } elsif ($mixed =~ /^ *(\d+) */ *(\d+)(\D.*)?$/) {
    return $1/$2;
  } elsif ($mixed =~ /^ *(\d+)(\D.*)?$/) {
    return $1;
  }
}

print parse_mixed("10"), "\n";
print parse_mixed("1/3"), "\n";
print parse_mixed("1 / 3"), "\n";
print parse_mixed("10 1/3"), "\n";
print parse_mixed("10-1/3"), "\n";
print parse_mixed("10 - 1/3"), "\n";

29.10.2008 03:35

Если вы используете Perl 5.10, я бы написал его так.

m{
  ^
  \s*       # skip leading spaces

  (?'whole'
   \d++
   (?! \s*[/] )   # there should not be a slash immediately following a whole number
  )

  \s*

  (?:    # the rest should fail or succeed as a group

    -?        # ignore possible neg sign
    \s*

    (?'numerator'
     \d+
    )

    \s*
    [/]
    \s*

    (?'denominator'
     \d+
    )
  )?
}x

Затем вы можете получить доступ к значениям из переменной %+ следующим образом:

$+{whole};
$+{numerator};
$+{denominator};

30.10.2008 07:02

Другие вопросы по теме

Невозможно использовать определенные символы в регулярном выражении

Удалить комментарии C и C++ с помощью Python?

Соответствует цветному регулярному выражению - без пропуска промахов

Соответствие необязательной подстроки в регулярном выражении

Расширение шаблона сообщения

Регулярное выражение для поиска статических (не окончательных) переменных

Удалить теги HTML из строки

Почему в этом регулярном выражении экранируется левая скобка?

Какой самый чистый способ преобразовать 5-7-значное число в формат xxx / xxx / xxx в php?

Регулярные выражения - сопоставить все якоря с необязательными атрибутами

Регулярное выражение для соответствия неаккуратным дробям / смешанным числам

Ответы 3

Другие вопросы по теме

Похожие вопросы