Веб-сканер против парсера HTML

В чем разница между поисковым роботом и парсером?

В java есть несколько имен для извлечения библиотек. Например, они называют Nutch поисковым роботом, а jsoup - парсером.

Are they do the same purpose?

Полностью ли они похожи по работе?

Благодарность

Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...
Полный курс Java для разработчиков веб-сайтов и приложений
Полный курс Java для разработчиков веб-сайтов и приложений
Получите сертификат Java Web и Application Developer, используя наш курс.
1
0
701
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

На это легко ответить, посмотрев это в Википедии:

A parser is a software component that takes input data (frequently text) and builds a data structure

https://en.wikipedia.org/wiki/Parsing#Computer_languages

A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an [Internet bot] that systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering).

https://en.wikipedia.org/wiki/Web_crawler

Но я не понимал, в чем разница между ними?

Ahmed Sakr 14.11.2018 20:14
Ответ принят как подходящий

Библиотека jsoup - это библиотека Java для работы с реальным HTML. Он поддерживает получение и работает с HTML. Однако в целом это нет веб-сканер, так как он способен извлекать только одну страницу за раз (без написания специальной программы (= искателя), использующей jsoup для извлечения, извлечения и извлечения новых URL-адресов).

Сканер Web использует анализатор HTML для URL-адресов извлекать с ранее полученного веб-сайта и добавляет этот недавно обнаруженный URL-адрес в свой граница.

В этом ответе можно найти общую схему последовательности действий поискового робота: Какую последовательность шагов выполняет crawler4j для получения данных?

Подводя итог:

Анализатор HTML - это необходимый компонент поискового робота для анализа и извлечения URL-адресов из заданного ввода HTML. Однако сам по себе HTML-анализатор является нет поисковым роботом Web, поскольку ему не хватает некоторых необходимых функций, таких как поддержание ранее посещенных URL-адресов, вежливость и т. д.

Другие вопросы по теме