У нас много сайтов, которые обновляются, добавляются и удаляются. Мне любопытно, как Stormcrawler обрабатывает сайт с URL-адресом, который ранее был «FETCHED», когда в следующий раз, когда SC достигает его, он был удален и либо генерирует перенаправление, либо 404. Что происходит с контентом из старая версия страницы, в индексе "Индекс"?
Я знаю, что URL-адрес в индексе «Статус», вероятно, изменится на «ПЕРЕНАПРАВЛЕНИЕ» или «ОШИБКА ПОЛУЧЕНИЯ» или что-то в этом роде, но как насчет самого контента? Это удалено? Это осталось? Я пытаюсь выяснить, как здесь реагирует SC, и нужно ли мне работать над очисткой этих потерянных документов в индексе «Индекс».
Я бы ожидал, что SC удалит контент, если его больше нет, но я решил спросить, чтобы быть уверенным.
Как вы указали, отсутствующий URL-адрес получит статус FETCH_ERROR, который после повторной попытки несколько раз (параметр max.fetch.errors - по умолчанию 3) превратится в статус ERROR.
Содержимое будет удалено, если вы подключите DeletionBolt к средству обновления статуса, см. пример топологии.