Я просканировал сайт через apache nutch. Я выполнил этот процесс с помощью ввода порядка, сегментации, выборки, синтаксического анализа, обновления b. В каком каталоге находятся извлеченные данные? Когда меня искали во всех каталогах Nutch, таких как crawldb, сегменты, он отображался в нечитаемом формате. После поиска я дал команду дампа, чтобы получить формат html. Это правильный способ извлечения данных? Спасибо.





Вы можете использовать Solr для индексации этих данных. Таким образом вы можете фильтровать данные по запросам givin
http://lucene.apache.org/solr/
Пожалуйста, не публикуйте вопросы повторно. stackoverflow.com/questions/50086688/…