В чем разница между поисковым роботом и парсером?
В java есть несколько имен для извлечения библиотек. Например, они называют Nutch поисковым роботом, а jsoup - парсером.
Are they do the same purpose?
Полностью ли они похожи по работе?
Благодарность




На это легко ответить, посмотрев это в Википедии:
A parser is a software component that takes input data (frequently text) and builds a data structure
https://en.wikipedia.org/wiki/Parsing#Computer_languages
A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an [Internet bot] that systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering).
https://en.wikipedia.org/wiki/Web_crawler
Библиотека jsoup - это библиотека Java для работы с реальным HTML. Он поддерживает получение и работает с HTML. Однако в целом это нет веб-сканер, так как он способен извлекать только одну страницу за раз (без написания специальной программы (= искателя), использующей jsoup для извлечения, извлечения и извлечения новых URL-адресов).
Сканер Web использует анализатор HTML для URL-адресов извлекать с ранее полученного веб-сайта и добавляет этот недавно обнаруженный URL-адрес в свой граница.
В этом ответе можно найти общую схему последовательности действий поискового робота: Какую последовательность шагов выполняет crawler4j для получения данных?
Подводя итог:
Анализатор HTML - это необходимый компонент поискового робота для анализа и извлечения URL-адресов из заданного ввода HTML. Однако сам по себе HTML-анализатор является нет поисковым роботом Web, поскольку ему не хватает некоторых необходимых функций, таких как поддержание ранее посещенных URL-адресов, вежливость и т. д.
Но я не понимал, в чем разница между ними?