Я пытался обдумать это, но не могу заставить его работать. Итак, я думал об «импорте» (загрузка и предварительная обработка / стандартизация данных) расписания в формате PDF в стандартном формате на PHP.
Я уже пробовал несколько библиотек (smalot / pdfparser, gufy / pdftohtml-php, tecnickcom / tc-lib-pdf-parser и некоторые небольшие классы) для чтения PDF, но все, что я, кажется, получаю, это простой текст и самое большее положение XY и содержимое параграф. В настоящее время я пытаюсь несколько организовать данные в (x, y, content), но я действительно ищу способ получить структуру, подобную таблице, в HTML / XML.
Преобразование PDF в XLSX приводит к несогласованному позиционированию элементов в расписании. Может быть, лучший формат для его преобразования и интерпретации в PHP.






Но PDF построен так: часть текста и координаты (x, y). Линия, прямоугольник и координаты (x, y). Это не похоже на HTML с таблицами, заголовками или какой-либо логической структурой. Парсинг PDF больше похож на OCR распечаток, здесь нет структуры.
Я мог бы пропустить это: - ?. Спасибо.
Мы используем
pdftotext -layout -nopgbrk, чтобы превратить PDF в текст, а затем ищем ожидаемое содержание, чтобы найти в документе наши ориентиры.