Токенизация XSLT с помощью регулярного выражения для токенизации только в том случае, если за точкой с запятой не следует пробел и число

Я пытаюсь токенизировать эту строку, чтобы создавать отдельные записи для каждой библиографической ссылки. Загвоздка в том, что иногда точка с запятой отделяет библиографическую статью, а иногда — номера страниц. Я хочу написать токенизатор только для токенизации, если за точкой с запятой не следует пробел и число. То, что у меня есть ниже, вроде как работает, но вырезает первую букву каждой цитаты. (Я использую XSLT 2.0)

Вход:

  <zotero>(Leppin 2019; Francisco 2011, 119; van Ginkel 2005, 43–44; 1995, 114–115; 126; 147; 166–67)</zotero>

XSLT:

<xsl:for-each select = "tokenize(zotero,';\s[^\d]')">
 <bibl><xsl:value-of select = "."/></bibl>
</xsl:for-each>

Текущий выход:

<bibl>(Leppin 2019</bibl>
<bibl>rancisco 2011, 119</bibl>
<bibl>an Ginkel 2005, 43–44; 1995, 114–115; 126; 147; 166–67)</bibl>
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
0
50
3
Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

К сожалению, спецификация XPath не позволяет выполнять предварительный просмотр в регулярных выражениях.

Вы можете использовать обходной путь, например:

<xsl:variable name = "preprocess" select = "replace(zotero, ';\s(\D)', '&#133;$1')" />
<xsl:for-each select = "tokenize($preprocess, '&#133;')">
    <bibl>
        <xsl:value-of select = "."/>
    </bibl>
</xsl:for-each>

Или, если вы используете процессор Saxon, вы можете переключиться на стандартный механизм регулярных выражений Java и просто сделать:

<xsl:for-each select = "tokenize(zotero, ';\s(?=\D)', ';j')">

Это здорово! Спасибо за альтернативное решение. Я использую Saxon, поэтому могу использовать флаг «:j», но мне также нравится обходное решение.

wsalesky 25.08.2024 15:37
Ответ принят как подходящий

Я хочу написать токенизатор, который будет токенизировать только если точка с запятой без пробела и цифры

С отрицательным прогнозом, который будет выражаться как

  <xsl:template match = "zotero">
    <xsl:for-each select = "tokenize(., ';(?! [0-9])', ';j')">
      <bib>{.}</bib>
    </xsl:for-each>
  </xsl:template>

Флаги ;j работают с Saxon Java, SaxonC, Saxon .NET, SaxonCS и SaxonJS, позволяя переключаться со стандартных регулярных выражений XPath на поддерживаемую платформу.

Идеальный! Спасибо за помощь, это именно то, что мне нужно.

wsalesky 25.08.2024 15:35

Вместо использования функции tokenize я бы, вероятно, использовал xsl:analyze-string вот так:

<xsl:stylesheet version = "2.0" xmlns:xsl = "http://www.w3.org/1999/XSL/Transform">
  <xsl:output method = "xml" indent = "true"/>

<xsl:template match = "zotero">
  <listBibl>
    <!-- each bibl starts with at least one letter \p{L} or space \p{Z},
    and continues with an optional sequence of non-letters \P{L} -->
    <xsl:analyze-string 
      select = "substring(., 2, string-length(.) - 2)" 
      regex = "(\p{{L}}|\p{{Z}})+\P{{L}}*"
    >
      <xsl:matching-substring>
        <bibl><xsl:value-of select = "."/></bibl>
      </xsl:matching-substring>
    </xsl:analyze-string>
  </listBibl>
</xsl:template>
 
</xsl:stylesheet>

Урожайность:

<listBibl>
   <bibl>Leppin 2019; </bibl>
   <bibl>Francisco 2011, 119; </bibl>
   <bibl>van Ginkel 2005, 43–44; 1995, 114–115; 126; 147; 166–67</bibl>
</listBibl>

Проблема с tokenize() в том, что он съедает ваши разделители, в отличие от <xsl:analyze-string> (или в XSLT 3 функции analyze-string()). Я думаю, что этот подход легче расширить, например. во вложенный набор операторов analyze-string, которые создают более детальную библиографическую разметку, например, элементы <date> и <citedRange>.

Другие вопросы по теме