Поиск по тексту PDF и возврат фрагмента с помощью Node.js

У меня около 2 миллионов файлов PDF с возможностью поиска по тексту. Мне нужно иметь возможность искать их по запросу пользователя и возвращать фрагмент и имя файла. Интерфейс - это приложение Node.js React.

Прямо сейчас я могу использовать pdfjs-dist (https://github.com/mozilla/pdfjs-dist) для чтения содержимого PDF в базу данных MySQL. Затем используйте полнотекстовые запросы MATCH ... AGAINST для поиска по тексту. Однако это неудобно, а с 2 миллионами PDF-файлов очень медленно. Кроме того, регулярно добавляются новые файлы, поэтому чтение PDF-файлов в SQL также требует значительных ресурсов.

Есть ли лучшее решение? Подходит ли Elasticsearch для этого?

Проект размещен в Google Cloud (App Engine & Cloud SQL). Есть ли инструмент Google, который может это сделать?

Освоение архитектуры микросервисов с Laravel: Лучшие практики, преимущества и советы для разработчиков
Освоение архитектуры микросервисов с Laravel: Лучшие практики, преимущества и советы для разработчиков
В последние годы архитектура микросервисов приобрела популярность как способ построения масштабируемых и гибких приложений. Laravel , популярный PHP...
Как построить CRUD-приложение в Laravel
Как построить CRUD-приложение в Laravel
Laravel - это популярный PHP-фреймворк, который позволяет быстро и легко создавать веб-приложения. Одной из наиболее распространенных задач в...
Освоение PHP и управление базами данных: Создание собственной СУБД - часть II
Освоение PHP и управление базами данных: Создание собственной СУБД - часть II
В предыдущем посте мы создали функциональность вставки и чтения для нашей динамической СУБД. В этом посте мы собираемся реализовать функции обновления...
Документирование API с помощью Swagger на Springboot
Документирование API с помощью Swagger на Springboot
В предыдущей статье мы уже узнали, как создать Rest API с помощью Springboot и MySql .
Роли и разрешения пользователей без пакета Laravel 9
Роли и разрешения пользователей без пакета Laravel 9
Этот пост изначально был опубликован на techsolutionstuff.com .
Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM
Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM
В предыдущей статье мы завершили установку базы данных, для тех, кто не знает.
0
0
633
1

Ответы 1

Да, я бы сказал, что Elasticsearch - отличный инструмент для индексации PDF и поиска в нем позже.

Существует подключаемый модуль процессора вложений, который позволяет извлекать данные из распространенных форматов (PDF, TXT, DOC и т. д.) И индексировать их в Elasticsearch, чтобы впоследствии их можно было найти.

В Google Cloud есть Плагин кластера Elasticsearch, что должно упростить интеграцию. Также есть Сервис Elasticsearch в Google Cloud, которые имеют огромную поддержку.

Вы можете объяснить разницу между плагином кластера и сервисом?

markkazanski 08.01.2019 19:23

Другие вопросы по теме