Токенизация XSLT с помощью регулярного выражения для токенизации только в том случае, если за точкой с запятой не следует пробел и число

Я пытаюсь токенизировать эту строку, чтобы создавать отдельные записи для каждой библиографической ссылки. Загвоздка в том, что иногда точка с запятой отделяет библиографическую статью, а иногда — номера страниц. Я хочу написать токенизатор только для токенизации, если за точкой с запятой не следует пробел и число. То, что у меня есть ниже, вроде как работает, но вырезает первую букву каждой цитаты. (Я использую XSLT 2.0)

Вход:

  <zotero>(Leppin 2019; Francisco 2011, 119; van Ginkel 2005, 43–44; 1995, 114–115; 126; 147; 166–67)</zotero>

XSLT:

<xsl:for-each select = "tokenize(zotero,';\s[^\d]')">
 <bibl><xsl:value-of select = "."/></bibl>
</xsl:for-each>

Текущий выход:

<bibl>(Leppin 2019</bibl>
<bibl>rancisco 2011, 119</bibl>
<bibl>an Ginkel 2005, 43–44; 1995, 114–115; 126; 147; 166–67)</bibl>

regex xslt tokenize

25.08.2024 14:48

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

К сожалению, спецификация XPath не позволяет выполнять предварительный просмотр в регулярных выражениях.

Вы можете использовать обходной путь, например:

<xsl:variable name = "preprocess" select = "replace(zotero, ';\s(\D)', '&#133;$1')" />
<xsl:for-each select = "tokenize($preprocess, '&#133;')">
    <bibl>
        <xsl:value-of select = "."/>
    </bibl>
</xsl:for-each>

Или, если вы используете процессор Saxon, вы можете переключиться на стандартный механизм регулярных выражений Java и просто сделать:

<xsl:for-each select = "tokenize(zotero, ';\s(?=\D)', ';j')">

Это здорово! Спасибо за альтернативное решение. Я использую Saxon, поэтому могу использовать флаг «:j», но мне также нравится обходное решение.

— 25.08.2024 15:37

25.08.2024 15:17

Ответ принят как подходящий

Я хочу написать токенизатор, который будет токенизировать только если точка с запятой без пробела и цифры

С отрицательным прогнозом, который будет выражаться как

  <xsl:template match = "zotero">
    <xsl:for-each select = "tokenize(., ';(?! [0-9])', ';j')">
      <bib>{.}</bib>
    </xsl:for-each>
  </xsl:template>

Флаги ;j работают с Saxon Java, SaxonC, Saxon .NET, SaxonCS и SaxonJS, позволяя переключаться со стандартных регулярных выражений XPath на поддерживаемую платформу.

Идеальный! Спасибо за помощь, это именно то, что мне нужно.

— 25.08.2024 15:35

25.08.2024 15:26

Вместо использования функции tokenize я бы, вероятно, использовал xsl:analyze-string вот так:

<xsl:stylesheet version = "2.0" xmlns:xsl = "http://www.w3.org/1999/XSL/Transform">
  <xsl:output method = "xml" indent = "true"/>

<xsl:template match = "zotero">
  <listBibl>
    <!-- each bibl starts with at least one letter \p{L} or space \p{Z},
    and continues with an optional sequence of non-letters \P{L} -->
    <xsl:analyze-string 
      select = "substring(., 2, string-length(.) - 2)" 
      regex = "(\p{{L}}|\p{{Z}})+\P{{L}}*"
    >
      <xsl:matching-substring>
        <bibl><xsl:value-of select = "."/></bibl>
      </xsl:matching-substring>
    </xsl:analyze-string>
  </listBibl>
</xsl:template>
 
</xsl:stylesheet>

Урожайность:

<listBibl>
   <bibl>Leppin 2019; </bibl>
   <bibl>Francisco 2011, 119; </bibl>
   <bibl>van Ginkel 2005, 43–44; 1995, 114–115; 126; 147; 166–67</bibl>
</listBibl>

Проблема с tokenize() в том, что он съедает ваши разделители, в отличие от <xsl:analyze-string> (или в XSLT 3 функции analyze-string()). Я думаю, что этот подход легче расширить, например. во вложенный набор операторов analyze-string, которые создают более детальную библиографическую разметку, например, элементы <date> и <citedRange>.

26.08.2024 05:57

Другие вопросы по теме

XSLT: применить преобразование XML, за которым следует другое преобразование текста

XML в CSV для дочерних узлов

XSLT: суммировать и удалять узлы XML в зависимости от условий

Фильтрация массивов из Saxon XSLT API в Java?

Почему использование атрибута режима в моем XSLT приводит к печати всего XML?

Десятичный -> Шестнадцатеричный -> Кодировка символов в XSLT

Как преобразовать тип данных Long в формат Hex в XSLT и выполнить длинный анализ в XSLT. XSLT для использования в DataPower

Преобразование XML: дублирование узла и строки объединения с существующими значениями тегов

Преобразование XSLT: перемещение значений тегов в родительские

XSLT с двумя проходами, поэтому одни и те же входные данные могут поддерживать вычисления в нескольких шаблонах

Токенизация XSLT с помощью регулярного выражения для токенизации только в том случае, если за точкой с запятой не следует пробел и число

Ответы 3

Другие вопросы по теме

Похожие вопросы