Быстрый способ найти значение в HTML (Java)

Каков самый простой способ получить HTML-код веб-сайта и найти значение внутри этого тега (или значение любого атрибута, если на то пошло) с помощью регулярных выражений:

<html>
  <head>
  [snip]
  <meta name = "generator" value = "thevalue i'm looking for" />
  [snip]

java html regex

28.08.2008 04:28

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

11 021

Перейти к ответу Данный вопрос помечен как решенный

Ответы 7

Ответ принят как подходящий

Зависит от того, насколько сложен HTTP-запрос, который вам нужно создать (аутентификация и т. д.). Вот один простой способ, который я видел раньше.

StringBuilder html = new StringBuilder();
java.net.URL url = new URL("http://www.google.com/");
BufferedReader input = null;
try {
    input new BufferedReader(
        new InputStreamReader(url.openStream()));

    String htmlLine;
    while ((htmlLine=input.readLine())!=null) {
        html.appendLine(htmlLine);
    }
}
finally {
    input.close();
}

Pattern exp = Pattern.compile(
    "<meta name=\"generator\" value=\"([^\"]*)\" />");
Matcher matcher = exp.matcher(html.toString());
if (matcher.find())
{
    System.out.println("Generator: "+matcher.group(1));
}

Вероятно, при компиляции здесь можно найти множество опечаток. (надеюсь, это не было домашним заданием)

Что делать, если метатег закомментирован? Это все равно будет читать. Это правильно? Что делать, если между метой и именем есть два пробела? Или вкладка? Или перевод строки? Что делать, если генератор слов не заключен в кавычки? Из-за этих и многих других проблем я предлагаю не писать это самостоятельно, а найти библиотеку, которая сделает это за вас.

— 22.11.2009 12:27

28.08.2008 04:38

Вы можете проверить документацию для пакета Apache org.apache.commons.HttpClient и связанных пакетов здесь. Отправить HTTP-запрос из Java-приложения довольно просто. Просматривая документацию, вы должны двигаться в правильном направлении.

28.08.2008 05:22

Я не пробовал это, но разве базовая структура не будет

Откройте java.net.HttpURLConnection
Получить входной поток с помощью getInputStream
Используйте регулярное выражение в ответе Майка, чтобы разобрать нужный бит.

28.08.2008 05:26

Строго говоря, вы не можете быть уверены, что получили правильное значение, поскольку метатег может быть закомментирован, или метатег может быть в верхнем регистре и т. д. Это зависит от того, насколько вы уверены, что HTML можно считать "хорошим". ".

19.09.2008 15:07

Вы должны использовать запрос XPath.

Это так же просто, как получить значение /html/head/meta[@name=generator]/@value.

Хороший учебник: Анализ XML-документа с помощью XPath

Как вы предлагаете выполнить XPath для Html, если Html не является Xml? Вы не можете гарантировать, что Html можно будет загрузить как документ Xml для навигации XPath. Теперь Html DOM - отличный инструмент для этого, но RegEx работает и прост.

— 31.01.2009 07:12

Примером в вопросе, очевидно, является XHTML и, следовательно, XML, потому что он имеет самозакрывающийся тег.

— 22.11.2009 12:39

26.09.2008 05:09

По-разному.

Если вы извлекаете информацию с сайта или сайтов, которые гарантированно представляют собой правильно сформированный HTML, и знаете, что <meta> не будет каким-либо образом запутан, то чтение

section line by line and applying a regex is a good approach.

С другой стороны, если HTML может быть искажен или «запутан», вам нужно использовать правильный HTML-анализатор, возможно, разрешающий, например HTMLTidy. Остерегайтесь использования строгого парсера HTML или XML для материалов, полученных со случайных веб-сайтов. Вы обнаружите, что так называемый HTML-код на самом деле искажен.

Правильно сформированный HTML - это еще одна причина попробовать использовать правильный синтаксический анализатор вместо регулярного выражения. Regex никогда не следует использовать для синтаксического анализа HTML, точка.

— 22.11.2009 12:35

22.11.2009 12:23

Удивительно, как никто, обращаясь к проблеме использования RegEx с HTML, не сталкивается с проблемой того, что HTML часто имеет правильный формат НЕТ, что делает многие HTML-парсеры совершенно бесполезными.

Если вы разрабатываете инструменты для анализа веб-страниц и факт, что они не являются правильно сформированным HTML, утверждение «Regex никогда не следует использовать для синтаксического анализа HTML» или «использовать HTML-синтаксический анализатор» является полностью ложным. Факты таковы, что в реальном мире люди создают HTML по своему усмотрению - и это не обязательно подходит для парсеров.

RegEx является - полностью действующий способ поиска элементов в тексте, то есть в HTML. Если есть какой-либо другой разумный способ решить проблемы, которые есть в оригинальном плакате, то опубликуйте их вместо того, чтобы ссылаться на «использовать синтаксический анализатор» или «RTFM».

17.12.2010 01:02

Другие вопросы по теме

Обеспечение соблюдения стандартов веб-кодирования

Элемент управления WYSIWYG Markdown для Windows Forms?

Как получить данные, отправленные на веб-сервер в ASP.NET?

Каков разумный предел длины полей «Имя»?

Фиксированный макет страницы в IE6

Есть ли HTML-код, противоположный <noscript>?

Таблицы вместо DIV

Как отправить форму при нажатии клавиши возврата?

Регулярное выражение для соответствия всем тегам HTML, кроме <p> и </p>

Тег HTML Select с черным фоном - раскрывающийся треугольник невидим в Firefox 3

Быстрый способ найти значение в HTML (Java)

Ответы 7

Другие вопросы по теме

Похожие вопросы