Веб-сканер против парсера HTML

В чем разница между поисковым роботом и парсером?

В java есть несколько имен для извлечения библиотек. Например, они называют Nutch поисковым роботом, а jsoup - парсером.

Are they do the same purpose?

Полностью ли они похожи по работе?

Благодарность

java web-crawler jsoup crawler4j

14.11.2018 17:40

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами

В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...

Поднятие тревоги для долго выполняющихся методов в Spring Boot

Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...

Принятие принципов SOLID в Spring Boot: Создание обслуживаемых и масштабируемых приложений

Коллекции (ArrayList , HashSet , HashMap)

Полный курс Java для разработчиков веб-сайтов и приложений

Получите сертификат Java Web и Application Developer, используя наш курс.

701

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

На это легко ответить, посмотрев это в Википедии:

A parser is a software component that takes input data (frequently text) and builds a data structure

https://en.wikipedia.org/wiki/Parsing#Computer_languages

A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an [Internet bot] that systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering).

https://en.wikipedia.org/wiki/Web_crawler

Но я не понимал, в чем разница между ними?

— 14.11.2018 20:14

14.11.2018 17:45

Ответ принят как подходящий

Библиотека jsoup - это библиотека Java для работы с реальным HTML. Он поддерживает получение и работает с HTML. Однако в целом это нет веб-сканер, так как он способен извлекать только одну страницу за раз (без написания специальной программы (= искателя), использующей jsoup для извлечения, извлечения и извлечения новых URL-адресов).

Сканер Web использует анализатор HTML для URL-адресов извлекать с ранее полученного веб-сайта и добавляет этот недавно обнаруженный URL-адрес в свой граница.

В этом ответе можно найти общую схему последовательности действий поискового робота: Какую последовательность шагов выполняет crawler4j для получения данных?

Подводя итог:

Анализатор HTML - это необходимый компонент поискового робота для анализа и извлечения URL-адресов из заданного ввода HTML. Однако сам по себе HTML-анализатор является нет поисковым роботом Web, поскольку ему не хватает некоторых необходимых функций, таких как поддержание ранее посещенных URL-адресов, вежливость и т. д.

10.12.2018 11:20

Другие вопросы по теме

Используйте flask, чтобы получить URL-адрес от пользователя и сжать изображения

Scrapy ОШИБКА: проблема с обработкой ошибок паука

Ползание изображения с использованием фляжки и красивый процесс супа не выходит

Как получить количество страниц с помощью Puppeteer?

Как выйти из режима сканирования, если в Scrapy встречается определенное состояние

Как отправить еще один запрос и получить результат в функции синтаксического анализа scrapy?

Сканирование более 1000 пейджеров одним поисковым роботом по сравнению с несколькими небольшими поисковыми роботами

Почему я получил сообщение IndexError: list index out of range?

Сканирование Scrapy и загрузка файлов определенного типа

Как распечатать HTML-документ с помощью Puppeteer?

Веб-сканер против парсера HTML

Ответы 2

Другие вопросы по теме

Похожие вопросы