Что происходит, когда ранее «FETCHED» URL-адрес удаляется на стороне веб-сервера, и StormCrawler снова обращается к нему?

У нас много сайтов, которые обновляются, добавляются и удаляются. Мне любопытно, как Stormcrawler обрабатывает сайт с URL-адресом, который ранее был «FETCHED», когда в следующий раз, когда SC достигает его, он был удален и либо генерирует перенаправление, либо 404. Что происходит с контентом из старая версия страницы, в индексе "Индекс"?

Я знаю, что URL-адрес в индексе «Статус», вероятно, изменится на «ПЕРЕНАПРАВЛЕНИЕ» или «ОШИБКА ПОЛУЧЕНИЯ» или что-то в этом роде, но как насчет самого контента? Это удалено? Это осталось? Я пытаюсь выяснить, как здесь реагирует SC, и нужно ли мне работать над очисткой этих потерянных документов в индексе «Индекс».

Я бы ожидал, что SC удалит контент, если его больше нет, но я решил спросить, чтобы быть уверенным.

0
0
65
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Как вы указали, отсутствующий URL-адрес получит статус FETCH_ERROR, который после повторной попытки несколько раз (параметр max.fetch.errors - по умолчанию 3) превратится в статус ERROR.

Содержимое будет удалено, если вы подключите DeletionBolt к средству обновления статуса, см. пример топологии.

Другие вопросы по теме