RegEx для сопоставления CDATA из строк XML

Моя строка xml:

    String neMsg= "<root>" 
              +"   <CONTENT>"
              +"                <![CDATA[00000:<ResponseClass Name=\"Response\"><ITEM>HAHA</ITEM></ResponseClass>]]>"
              +"        </CONTENT>"
              +"</root>";

Я пытался написать код четырьмя способами, но до сих пор не могу получить содержимое. Как решить эту проблему?

 //java.util.regex.Pattern pP0=java.util.regex.Pattern.compile("<!\\[CDATA\\[00000:(\\s|\\S)*?\\]\\]>");
     // java.util.regex.Pattern pP0=java.util.regex.Pattern.compile("<!\\[CDATA\\[00000:(.*)\\]\\]>");
     // java.util.regex.Pattern pP0=java.util.regex.Pattern.compile("<CONTENT>(.*)<!\\[CDATA\\[(.*)\\]\\]>(.*)</CONTENT>");
     Pattern pP0 = Pattern.compile(".*<!\\[CDATA\\[00000:(.*)\\]\\]>.*");
    java.util.regex.Matcher mP0= pP0.matcher(neMsg);
      System.out.println(mP0.group(1));

Не используйте регулярные выражения для разбора XML (или HTML и т.п.)!

— 01.05.2019 13:50

Взгляните на этот пост

— 01.05.2019 13:54

Пожалуйста, взгляните на Использование регулярных выражений для анализа HTML: почему бы и нет?, Можете ли вы привести несколько примеров того, почему сложно анализировать XML и HTML с помощью регулярных выражений?

— 01.05.2019 14:08

java regex regex-group

01.05.2019 13:46

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

377

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы никогда не должны анализировать HTML с помощью регулярных выражений, вместо этого вы можете использовать парсер HTML, такой как JSoup.

И проблема здесь в том, что вам нужно сначала вызвать метод matcherObject.find() (используйте его для поиска шаблона в любом месте строки) или matcherObject.matches() (используйте его для сопоставления всей строки с шаблоном), прежде чем вы сможете получить доступ к совпадению, а также вы должны сначала всегда проверьте, является ли значение, возвращенное find или matches, истинным, используя цикл if или while. Также вам нужно вызвать group(1) вместо group(0) (это вернет полное совпадение), чтобы получить доступ к содержимому из группы1.

Измените свой код на этот,

String neMsg = "<root>" + "   <CONTENT>"
        + "                <![CDATA[00000:<ResponseClass Name=\"Response\"><ITEM>HAHA</ITEM></ResponseClass>]]>"
        + "        </CONTENT>" + "</root>";

Pattern pP0 = Pattern.compile(".*<!\\[CDATA\\[00000:(.*)\\]\\]>.*");
java.util.regex.Matcher mP0 = pP0.matcher(neMsg);
if (mP0.find()) { // matches method will also work because your pattern is wrapped with `.*` from both sides
    System.out.println(mP0.group(1));
}

Печатает весь матч,

<ResponseClass Name = "Response"><ITEM>HAHA</ITEM></ResponseClass>

01.05.2019 13:52

Другие вопросы по теме

Извлечение текста из файла изображения OCR

Регулярное выражение Perl в качестве входных данных для пользовательского поиска (очистка)

RegEx для замены чисел в строке

Как написать RewriteRules для .htaccess?

Как выполнить итерацию по регулярному выражению для элементов «1 или много»?

Как преобразовать функцию Perl Map в Python?

Как отобразить с помощью фильтра только ячейки, содержащие японский язык в Google Таблицах?

Регулярное выражение узла uri не захватывает группы захвата

Как я могу создать нежадную группу

Я не понимаю, почему matcher.find() всегда возвращает false

RegEx для сопоставления CDATA из строк XML

Ответы 1

Другие вопросы по теме

Похожие вопросы