Поиск по тексту PDF и возврат фрагмента с помощью Node.js

У меня около 2 миллионов файлов PDF с возможностью поиска по тексту. Мне нужно иметь возможность искать их по запросу пользователя и возвращать фрагмент и имя файла. Интерфейс - это приложение Node.js React.

Прямо сейчас я могу использовать pdfjs-dist (https://github.com/mozilla/pdfjs-dist) для чтения содержимого PDF в базу данных MySQL. Затем используйте полнотекстовые запросы MATCH ... AGAINST для поиска по тексту. Однако это неудобно, а с 2 миллионами PDF-файлов очень медленно. Кроме того, регулярно добавляются новые файлы, поэтому чтение PDF-файлов в SQL также требует значительных ресурсов.

Есть ли лучшее решение? Подходит ли Elasticsearch для этого?

Проект размещен в Google Cloud (App Engine & Cloud SQL). Есть ли инструмент Google, который может это сделать?

mysql node.js pdf elasticsearch google-cloud-platform

08.01.2019 17:00

Освоение архитектуры микросервисов с Laravel: Лучшие практики, преимущества и советы для разработчиков

В последние годы архитектура микросервисов приобрела популярность как способ построения масштабируемых и гибких приложений. Laravel , популярный PHP...

Как построить CRUD-приложение в Laravel

Laravel - это популярный PHP-фреймворк, который позволяет быстро и легко создавать веб-приложения. Одной из наиболее распространенных задач в...

Освоение PHP и управление базами данных: Создание собственной СУБД - часть II

В предыдущем посте мы создали функциональность вставки и чтения для нашей динамической СУБД. В этом посте мы собираемся реализовать функции обновления...

Документирование API с помощью Swagger на Springboot

В предыдущей статье мы уже узнали, как создать Rest API с помощью Springboot и MySql .

Роли и разрешения пользователей без пакета Laravel 9

Этот пост изначально был опубликован на techsolutionstuff.com .

Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM

В предыдущей статье мы завершили установку базы данных, для тех, кто не знает.

633

Ответы 1

Да, я бы сказал, что Elasticsearch - отличный инструмент для индексации PDF и поиска в нем позже.

Существует подключаемый модуль процессора вложений, который позволяет извлекать данные из распространенных форматов (PDF, TXT, DOC и т. д.) И индексировать их в Elasticsearch, чтобы впоследствии их можно было найти.

В Google Cloud есть Плагин кластера Elasticsearch, что должно упростить интеграцию. Также есть Сервис Elasticsearch в Google Cloud, которые имеют огромную поддержку.

Вы можете объяснить разницу между плагином кластера и сервисом?

— 08.01.2019 19:23

08.01.2019 19:16