Разбор таблицы из PDF с помощью PHP

Я пытался обдумать это, но не могу заставить его работать. Итак, я думал об «импорте» (загрузка и предварительная обработка / стандартизация данных) расписания в формате PDF в стандартном формате на PHP.

Я уже пробовал несколько библиотек (smalot / pdfparser, gufy / pdftohtml-php, tecnickcom / tc-lib-pdf-parser и некоторые небольшие классы) для чтения PDF, но все, что я, кажется, получаю, это простой текст и самое большее положение XY и содержимое параграф. В настоящее время я пытаюсь несколько организовать данные в (x, y, content), но я действительно ищу способ получить структуру, подобную таблице, в HTML / XML.

Преобразование PDF в XLSX приводит к несогласованному позиционированию элементов в расписании. Может быть, лучший формат для его преобразования и интерпретации в PHP.

Мы используем pdftotext -layout -nopgbrk, чтобы превратить PDF в текст, а затем ищем ожидаемое содержание, чтобы найти в документе наши ориентиры.

Mr Glass 18.06.2018 23:49
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Symfony Station Communiqué - 7 июля 2023 г
Symfony Station Communiqué - 7 июля 2023 г
Это коммюнике первоначально появилось на Symfony Station .
Оживление вашего приложения Laravel: Понимание режима обслуживания
Оживление вашего приложения Laravel: Понимание режима обслуживания
Здравствуйте, разработчики! В сегодняшней статье мы рассмотрим важный аспект управления приложениями, который часто упускается из виду в суете...
Установка и настройка Nginx и PHP на Ubuntu-сервере
Установка и настройка Nginx и PHP на Ubuntu-сервере
В этот раз я сделаю руководство по установке и настройке nginx и php на Ubuntu OS.
Коллекции в Laravel более простым способом
Коллекции в Laravel более простым способом
Привет, читатели, сегодня мы узнаем о коллекциях. В Laravel коллекции - это способ манипулировать массивами и играть с массивами данных. Благодаря...
Как установить PHP на Mac
Как установить PHP на Mac
PHP - это популярный язык программирования, который используется для разработки веб-приложений. Если вы используете Mac и хотите разрабатывать...
0
1
907
1

Ответы 1

Но PDF построен так: часть текста и координаты (x, y). Линия, прямоугольник и координаты (x, y). Это не похоже на HTML с таблицами, заголовками или какой-либо логической структурой. Парсинг PDF больше похож на OCR распечаток, здесь нет структуры.

Я мог бы пропустить это: - ?. Спасибо.

VladC 18.06.2018 23:40

Другие вопросы по теме