Не каждый веб-сайт хорошо предоставляет свои данные с помощью XML-каналов, API и т. д.
Как я могу получить информацию с веб-сайта? Например:
...
<div>
<div>
<span id = "important-data">information here</span>
</div>
</div>
...
Я имею опыт программирования на Java и кодирования с помощью Apache XMLBeans. Есть ли что-нибудь похожее на синтаксический анализ HTML, когда я знаю, что структура и данные находятся между известным тегом?
Спасибо
Я полностью согласен, меня не интересует парсинг, но бывают случаи, когда вам нужно получить доступ к данным на сайтах, обратите внимание, Java не является обязательным, просто предпочтение




Вот статья, в котором есть несколько инструментов для очистки экрана, написанных на java.
В общем, похоже, вы хотите взглянуть на регулярные выражения, который выполняет поиск по шаблону, который вы ищете.
Надеюсь, это поможет!
Существует несколько парсеров HTML с открытым исходным кодом для Java.
Раньше я использовал JTidy, и мне с ним повезло. Это даст вам DOM html-страницы, и вы сможете получить оттуда нужные вам теги.
Java кажется довольно сложным ограничением для такой задачи. Это жесткое требование? Языки сценариев идеально подходят для создания действительно большого количества кода последней мили.
Если вы открыты для этого, ruby + трикотаж сделает это совершенно тривиальным. Вы можете использовать селекторы css или xpath (или оба) для поиска (и управления) содержимым в HTML. Захват документа, его анализ и извлечение текста в вашем примере - это буквально одна строка кода.
Будьте осторожны при выполнении таких действий, особенно если вы собираетесь просмотреть множество страниц на одном сайте и очистить их все в поисках данных. Это может отрицательно сказаться на производительности веб-сайтов и не очень дружелюбно.