Разделите определенные страницы PDF и сохраните их с помощью Python

Я пытаюсь разбить 20 страниц pdf-файла (одного) на пять соответствующих pdf-файлов, 1-й pdf-файл содержит 1-3 страницы, 2-й pdf-файл содержит только 4-ю страницу, 3-й pdf-файл содержит от 5 до 10 страниц, 4-й pdf-файл содержит 11-17 страниц, а 5-й pdf содержит 18-20 страниц. Мне нужен рабочий код на питоне. Приведенный ниже код разбивает весь файл PDF на отдельные страницы, но мне нужны сгруппированные страницы.

    from PyPDF2 import PdfFileWriter, PdfFileReader
    inputpdf = PdfFileReader(open("input.pdf", "rb"))
    for i in range(inputpdf.numPages):
    j = i+1    
    output = PdfFileWriter()
    output.addPage(inputpdf.getPage(i))
    with open("page%s.pdf" % j, "wb") as outputStream:
    output.write(outputStream)
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
0
4 203
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

если у вас есть python 3, вы можете использовать tika в соответствии со следующим ответом здесь:

Как извлечь текст из файла PDF?

Я хочу разделить страницы, тогда я хочу извлечь

Sutirtha Thakur 10.04.2019 13:22

@SutirthaThakur Здесь — это то, что вы ищете.

FrainBr33z3 10.04.2019 14:06

Я хочу разбить его по страницам, требуются только выбранные страницы, если возможно, поделитесь кодом.

Sutirtha Thakur 11.04.2019 08:04
Ответ принят как подходящий

Для меня это выглядит как задача для pdfrw, используя этот пример с гитхаба. Я написал следующий пример кода:

from pdfrw import PdfReader, PdfWriter
pages = PdfReader('inputfile.pdf').pages
parts = [(3,6),(7,10)]
for part in parts:
    outdata = PdfWriter(f'pages_{part[0]}_{part[1]}.pdf')
    for pagenum in range(*part):
        outdata.addpage(pages[pagenum-1])
    outdata.write()

Этот создает два файла: pages_3_6.pdf и pages_7_10.pdf каждый с 3 страницами, то есть 3,4,5 и 7,8,9. Обратите внимание pagenum-1 в коде, что -1 используется из-за того, что нумерация страниц pdf начинается с 1, а не с 0. Я также использовал так называемые f-строки для получения имен выходных файлов. На мой взгляд, это удобный метод, но он недоступен в Python2, и я не уверен, доступен ли он во всех версиях Python3 (я тестировал свой код в 3.6.7), поэтому вы можете использовать старый метод форматирования, если хотите. Не забудьте изменить имена файлов и диапазоны в соответствии с вашими потребностями.

части = [(1,3),(4),(5,10),(11,17),(18,20)] для части в частях: outdata = PdfWriter(f'pages_{part[0]}_ {part[1]}.pdf') для номера страницы в диапазоне (*part): outdata.addpage(pages[pagenum-1]) outdata.write() код разделения не работает для вышеуказанного случая, пожалуйста, помогите.

Sutirtha Thakur 11.04.2019 08:01

@SutirthaThakur: parts должно быть list из 2-tuple, так что (4) незаконно. Вместо этого вы должны использовать (4,5). Также имейте в виду, что (1,3) означает страницы 1 и 2, а (4,5) означает страницу 4.

Daweo 11.04.2019 09:06

части = [(1,4),(4,5),(5,10),(10,20)] когда я ввожу это, я получаю IndexError: индекс списка вне диапазона

Sutirtha Thakur 11.04.2019 11:20

@SutirthaThakur: пожалуйста, проверьте, действительно ли в вашем файле .pdf так много страниц, я не вижу другой возможной причины для IndexError.

Daweo 11.04.2019 12:39

В нем всего 20 страниц

Sutirtha Thakur 11.04.2019 12:41

Пожалуйста, добавьте строку print(len(pages)) ниже pages = PdfReader..., это покажет, сколько страниц было фактически прочитано.

Daweo 11.04.2019 13:05

говорят 12, но в идеале должно быть 20

Sutirtha Thakur 11.04.2019 14:02

Тогда это означает, что PdfReader почему-то не загрузился весь .pdf, решить эту проблему не в моих силах.

Daweo 11.04.2019 14:30

input_file = PyPDF2.PdfFileReader('input.pdf') это отлично работает

Sutirtha Thakur 12.04.2019 10:58

Другие вопросы по теме