Конец строки не работает с regexp_matches() в PostgreSQL

У меня есть таблица в базе данных PostgreSQL, и я пытаюсь извлечь подстроку с определенным шаблоном из строки в результате извлечения определенных данных из столбца jsonb. Интересующая строка извлекается с помощью следующей команды (я включаю все подробности на случай какого-либо побочного эффекта, которого я не заметил):

SELECT (e.content #> '{RefOrder, Ordertxt}')::text
FROM cistec.kis_t_event e
WHERE kat::text = 'MEDI'::text
AND (sender='NEO_FK' OR sender='PAED_IPS') AND dat >= '2023-01-01' AND dat <= '2023-12-31' AND LEFT(patnr, 1) <> 'T'
AND patnr NOT IN ('381227', '381234', '381235', '225328') AND fkey NOT ILIKE '%IF%'

Проблема в том, что я хочу извлечь подстроку с определенным шаблоном с помощью регулярного выражения, но не получаю одинаковый результат в двух случаях, которые для меня должны быть эквивалентны (очевидно, это не так, и мне нужно понять, почему) :

Случай 1. В первом случае я выбираю одно конкретное значение из одной из записей в результате приведенного выше запроса.

SELECT (regexp_matches('1. Res. Fieber, Schmerz: max. 1 Stk  max. 4x/24h, min. Intervall 6h rektal; 20- (25) mg/kg/Dosis; NG 10-15mg/kg/Dosis; max. 4x/d; 20 mg/kg', '(\d+(\.\d+)?\s?(g|mg|ucg|mmol)/kg\w*(/(h|d))?)$'))[1]

Результат: 20 mg/kg как и должно быть.

Случай 2. Во втором случае я применяю следующий CTE к соответствующей таблице из БД.

SELECT
    (e.content #> '{RefOrder, Ordertxt}')::text,
    (regexp_matches((e.content #> '{RefOrder, Ordertxt}')::text, '(\d+(\.\d+)?\s?(g|mg|ucg|mmol)/kg\w*(/(h|d))?)$'))[1]
FROM cistec.kis_t_event e
WHERE kat::text = 'MEDI'::text
AND (sender='NEO_FK' OR sender='PAED_IPS') AND dat >= '2023-01-01' AND dat <= '2023-12-31' AND LEFT(patnr, 1) <> 'T'
AND patnr NOT IN ('381227', '381234', '381235', '225328') AND fkey NOT ILIKE '%IF%'

Результат: empty.

Но еще более странно: если я удалю знак доллара ($) из регулярного выражения, я получу ожидаемый результат в соответствующей строке:

SELECT
    (e.content #> '{RefOrder, Ordertxt}')::text,
    (regexp_matches((e.content #> '{RefOrder, Ordertxt}')::text, '(\d+(\.\d+)?\s?(g|mg|ucg|mmol)/kg\w*(/(h|d))?)'))[1]
FROM cistec.kis_t_event e
WHERE kat::text = 'MEDI'::text
AND (sender='NEO_FK' OR sender='PAED_IPS') AND dat >= '2023-01-01' AND dat <= '2023-12-31' AND LEFT(patnr, 1) <> 'T'
AND patnr NOT IN ('381227', '381234', '381235', '225328') AND fkey NOT ILIKE '%IF%'

Результат: 15mg/kg.

Но проблема в том, что я хочу получить подстроку, когда она является последней частью строки (поэтому 20 mg/kg не 15mg/kg. Следовательно, использование $ для захвата этой функции.

Знаете, почему такое поведение?

Попробуйте добавить дополнительный CR: (\d+(?:\.\d+)?\s?(?:g|mg|ucg|mmol)/kg\w*(?:/[hd])?)\r?$

— 04.06.2024 12:30

Было бы полезно, если бы вы добавили образец таблицы, поскольку со строками в таблице может быть что-то не так, например, последний пробел. Тогда это будет соответствовать без $, но не с $.

— 04.06.2024 13:22

Если возможны символы, не являющиеся словами, используйте (\d+(?:\.\d+)?\s?(?:g|mg|ucg|mmol)/kg\w*(?:/[hd])?)\W*$

— 04.06.2024 13:42

@MatsKindahl: в конце строки нет пробела. Строка, которую я взял в случае 1, представляла собой копирование + вставку значения столбца jsonb из одной строки таблицы.

— 04.06.2024 20:50

@Eden Помог ли ответ ниже?

— 06.06.2024 13:47

Да. Я так понял, что правила ТАК запрещают говорить: "спасибо, работает!"

— 06.06.2024 21:57

@eden Да, но вы можете принять ответ как ответ на свой вопрос (есть галочка, которую вы можете нажать). :)

— 07.06.2024 17:43

regex database postgresql

04.06.2024 12:22

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Проблема в том, что оператор #> возвращает значение поля «необработанное», то есть с кавычками, если это строка, и без кавычек, если это какое-то другое значение.

Например, со следующей таблицей и содержимым:

create table sample (metric_id serial, content jsonb);

insert into sample(content) values
       ('{"one": "first content"}'),
       ('{"two": "second magic"}'),
       ('{"three": "whatever"}'),
       ('{"four": "oops"}');

Вы получаете это значение:

mats=# select metric_id, content #> '{one}' from sample;
 metric_id |    ?column?     
-----------+-----------------
         1 | "first content"
         2 | 
         3 | 
         4 | 
(4 rows)

В результате регулярное выражение не сможет соответствовать концу строки:

mats=# select metric_id, content #> '{one}', regexp_matches((content #> '{one}')::text, 'content$') from sample;
 metric_id | ?column? | regexp_matches 
-----------+----------+----------------
(0 rows)

Если вы добавите кавычку в регулярное выражение, она будет соответствовать ей:

mats=# select metric_id,
mats-#        content #> '{one}',
mats-#        regexp_matches(content #> '{one}', 'content$') from '{one}')::text, 'content"$') from sample;
 metric_id |    ?column?     | regexp_matches 
-----------+-----------------+----------------
         1 | "first content" | {"content\""}
(1 row)

Но более разумно использовать оператор #>>, чтобы извлечь его как text и сопоставить его напрямую:

mats=# select metric_id,
mats-#        content #>> '{one}',
mats-#        regexp_matches(content #>> '{one}', 'content$') from sample;
 metric_id |   ?column?    | regexp_matches 
-----------+---------------+----------------
         1 | first content | {content}
(1 row)

04.06.2024 23:26

Другие вопросы по теме

В чем разница между этими двумя запросами?

Почему мой PHP-код неправильно обновляет мое приложение CRUD?

Цикл запуска MongoDB для добавления дополнительного значения индекса в массив

Доступ к коллекции MongoDB с использованием строки в PyMongo

Как устранить проблему: «Значения типов «BINARY(255)» и «CHARACTER VARYING(255)» несопоставимы» при автозаполнении данных в базу данных H2?

Размер числового байта (точность, масштаб) в Postgres

Как получить значение только из таблицы?

Пользовательская сортировка фрейма данных на основе нескольких столбцов

Соберите данные OPC-UA с помощью Telegraf в QuestDB в плотном формате

Как лучше всего создать таблицу событий, в которой каждый раз при обновлении события предоставляются разные элементы событий?

Конец строки не работает с regexp_matches() в PostgreSQL

Ответы 1

Другие вопросы по теме

Похожие вопросы