Мы используем StormCrawler и сохраняем наш индекс Status
в elasticsearch. Этот индекс становится довольно большим (почти 3 миллиарда документов!), Поэтому осколки также велики для резервного копирования и т. д.
Я рассматриваю возможность удаления элемента массива метаданных url.path
из документации. Это выглядит как Я могу отключить его с помощью metadata.track.path
.
Каковы будут последствия, если я больше не буду индексировать это и удалить то, что у меня есть?
Если вас не интересует отслеживание того, как был найден конкретный URL-адрес, тогда да, вы бы сэкономили место (и немного времени), установив для metadata.track.path значение false. Вы можете сделать это сразу, и в любых новых документах не будет соответствующего поля.
Не уверен, что вы имеете в виду, говоря «удалить то, что у меня есть» - вы не можете удалить только одно поле, вам придется удалить и переиндексировать все документы.
Как правило, убедитесь, что вы индексируете только нужные поля. См. эта настроенная версия сценария инициализации индекса ES, где «имя хоста» было перемещено из полей с префиксом метаданных для возможности поиска. Доступные параметры зависят от версии Elasticsearch, которую вы используете.