Разбор таблицы из PDF с помощью PHP

Я пытался обдумать это, но не могу заставить его работать. Итак, я думал об «импорте» (загрузка и предварительная обработка / стандартизация данных) расписания в формате PDF в стандартном формате на PHP.

Я уже пробовал несколько библиотек (smalot / pdfparser, gufy / pdftohtml-php, tecnickcom / tc-lib-pdf-parser и некоторые небольшие классы) для чтения PDF, но все, что я, кажется, получаю, это простой текст и самое большее положение XY и содержимое параграф. В настоящее время я пытаюсь несколько организовать данные в (x, y, content), но я действительно ищу способ получить структуру, подобную таблице, в HTML / XML.

Преобразование PDF в XLSX приводит к несогласованному позиционированию элементов в расписании. Может быть, лучший формат для его преобразования и интерпретации в PHP.

Мы используем pdftotext -layout -nopgbrk, чтобы превратить PDF в текст, а затем ищем ожидаемое содержание, чтобы найти в документе наши ориентиры.

— 18.06.2018 23:49

php pdf timetable

18.06.2018 23:29

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Symfony Station Communiqué - 7 июля 2023 г

Это коммюнике первоначально появилось на Symfony Station .

Оживление вашего приложения Laravel: Понимание режима обслуживания

Здравствуйте, разработчики! В сегодняшней статье мы рассмотрим важный аспект управления приложениями, который часто упускается из виду в суете...

Установка и настройка Nginx и PHP на Ubuntu-сервере

В этот раз я сделаю руководство по установке и настройке nginx и php на Ubuntu OS.

Коллекции в Laravel более простым способом

Привет, читатели, сегодня мы узнаем о коллекциях. В Laravel коллекции - это способ манипулировать массивами и играть с массивами данных. Благодаря...

Как установить PHP на Mac

PHP - это популярный язык программирования, который используется для разработки веб-приложений. Если вы используете Mac и хотите разрабатывать...

907

Ответы 1

Но PDF построен так: часть текста и координаты (x, y). Линия, прямоугольник и координаты (x, y). Это не похоже на HTML с таблицами, заголовками или какой-либо логической структурой. Парсинг PDF больше похож на OCR распечаток, здесь нет структуры.

Я мог бы пропустить это: - ?. Спасибо.

— 18.06.2018 23:40

18.06.2018 23:39