У меня около 2 миллионов файлов PDF с возможностью поиска по тексту. Мне нужно иметь возможность искать их по запросу пользователя и возвращать фрагмент и имя файла. Интерфейс - это приложение Node.js React.
Прямо сейчас я могу использовать pdfjs-dist (https://github.com/mozilla/pdfjs-dist) для чтения содержимого PDF в базу данных MySQL. Затем используйте полнотекстовые запросы MATCH ... AGAINST для поиска по тексту. Однако это неудобно, а с 2 миллионами PDF-файлов очень медленно. Кроме того, регулярно добавляются новые файлы, поэтому чтение PDF-файлов в SQL также требует значительных ресурсов.
Есть ли лучшее решение? Подходит ли Elasticsearch для этого?
Проект размещен в Google Cloud (App Engine & Cloud SQL). Есть ли инструмент Google, который может это сделать?






Да, я бы сказал, что Elasticsearch - отличный инструмент для индексации PDF и поиска в нем позже.
Существует подключаемый модуль процессора вложений, который позволяет извлекать данные из распространенных форматов (PDF, TXT, DOC и т. д.) И индексировать их в Elasticsearch, чтобы впоследствии их можно было найти.
В Google Cloud есть Плагин кластера Elasticsearch, что должно упростить интеграцию. Также есть Сервис Elasticsearch в Google Cloud, которые имеют огромную поддержку.
Вы можете объяснить разницу между плагином кластера и сервисом?