Я использую nightwatch / NodeJs, используя огурец для автоматизации. У меня много областей, в которых создаются PDF-файлы, и их нужно проверять. Есть ли способ проверить загруженное содержимое PDF, включая текст / изображения и т. д.?
Заранее спасибо.
PDF будет автоматически сгенерирован самим приложением. Я спрашивал, как после генерации, есть ли какой-либо метод проверки содержимого внутри PDF с помощью автоматизации? @Shubham Verma





Вы можете использовать пакет pdfjs-dist для чтения содержимого PDF-файла. По моему опыту, это работало наиболее того времени. У меня было несколько случаев, когда он не возвращал никакого контента, хотя я мог явно видеть, что в файле был текст. Я не пытался понять, почему это было, но в большинстве случаев это работало для меня без проблем. Кроме того, я использовал его только для проверки текста. Я не пробовал использовать его для изображений, поэтому не уверен, что он может это сделать. Вы можете найти более подробную информацию здесь.
Это позволит вам поместить весь текст в массив. Что с ним делать дальше - решать вам.
pdfjs.getDocument('path/to/your/file.pdf').then(function(document) {
document.getPage(1).then(function(page) {
page.getTextContent().then(function(text) {
const allText = text.items.map(function(s) { return s.str }).concat('');
//console.info(allText);
});
});
});
Если вы хотите сгенерировать PDF через nodeJS, тогда вам поможет ссылка ниже: medium.com/@svsh227/generate-pdf-using-node-js-cfb1fac36625