Как я могу получить каждую страницу «Предварительный просмотр разрыва страницы» в Excel с помощью Python?

Проблема

Я пытаюсь получить каждую страницу «Предварительного просмотра разрыва страницы». Точнее говоря, мне нужно знать, какие ячейки содержит страница 1, какие ячейки содержит страница 2 и так далее.

Не могли бы вы научить меня, как реализовать эту функциональность в Python 3.12? Я попробовал openpyxl, но и другие библиотеки приветствуются.

Пример (что я пробовал)

Я обнаружил, что openpyxl имеет переменную print_area, но эта переменная возвращает только всю область печати, которая содержит все страницы, поэтому я не могу знать, какой странице принадлежит каждая ячейка.

Как вы можете видеть код и снимок экрана, результат — A1:R50, который содержит как страницу 1, так и страницу 2.

В этом примере ожидаемый результат выглядит примерно так: {'Page1': 'A1:I50', 'Page2':'J1:R50'}.

from openpyxl import load_workbook

workbook = load_workbook(filename = "./sample_loader_data/sample.xlsx", 
                         read_only=True, 
                         data_only=True, 
                         )
workbook.worksheets[0].print_area # Result: "'Test worksheet'!$A$1:$R$50"

Не знаю, что ты можешь. В XML есть только настройка области печати, которая показывает весь диапазон от A1 до R50, что отражено в значении Openpyxl. Я также посмотрел на Xlwings, и у них есть тот же самый полный ассортимент, который я мог видеть.

moken 08.08.2024 15:03

@moken или есть способ узнать количество страниц на листе?

dmjy 08.08.2024 15:15

Хорошо, если два диапазона расположены рядом друг с другом, они кажутся объединенными, но если они разделены хотя бы столбцом, вы увидите их как два отдельных диапазона. Например, если я установлю два диапазона как A1:H10 и J1:R10, область печати будет отображаться как '\'Sheet1\'!$A$1:$H$10,\'Sheet1\'!$J$1:$R$10', кстати, это определенный диапазон в Excel под названием «Print_Area», поэтому вы можете увидеть там, что вернет это значение.

moken 08.08.2024 15:38

Я не смог увидеть количество страниц в Openpyxl, его нет в ws.page_setup (но возможно, что его можно получить). Его можно получить из Xlwings ws.page_setup.api.Pages.Count

moken 08.08.2024 15:49

Почему вы смотрите на частную переменную, _print_area и она не зря является частной, когда вы действительно хотите посмотреть на разрывы страниц?

Charlie Clark 08.08.2024 18:58
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
5
72
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Как прокомментировано здесь, это невозможно с openpyxl

ОБНОВЛЕНИЕ: Как правильно ответил @dmjy, теперь это возможно с помощью openpyxl.

from openpyxl import load_workbook
import re

def num_to_excel_col(n):
    if n < 1:
        raise ValueError("Number must be positive")
    result = ""
    while True:
        if n > 26:
            n, r = divmod(n - 1, 26)
            result = chr(r + ord('A')) + result
        else:
            return chr(n + ord('A') - 1) + result

workbook = load_workbook(filename = "Demo.xlsx")

vertical_breaks = [0]+[page_break.id for page_break in workbook.worksheets[0].col_breaks.brk]
horizontal_breaks = [0]+[page_break.id for page_break in workbook.worksheets[0].row_breaks.brk]

last_cell = workbook.worksheets[0].dimensions.split(":")[1]
last_col = ''.join(re.findall(r'[a-zA-Z]+', last_cell))
last_row = ''.join(re.findall(r'\d+', last_cell))

pages = {}
cnt=1
for v, v_break in enumerate(vertical_breaks):
    for h, h_break in enumerate(horizontal_breaks):
        start_col = num_to_excel_col(vertical_breaks[v]+1)
        start_row = horizontal_breaks[h]+1
        end_col = num_to_excel_col(vertical_breaks[v+1]) if v+1 < len(vertical_breaks) else last_col
        end_row = horizontal_breaks[h+1] if h+1 < len(horizontal_breaks) else last_row
        pages[f"Page{cnt}"] = f"{start_col}{start_row}:{end_col}{end_row}"
        cnt+=1

print(pages)

Для этого примера

Он правильно выводит

{'Page1': 'A1:F27', 'Page2': 'A28:F54', 'Page3': 'G1:N27', 'Page4': 'G28:N54', 'Page5': 'O1:T27', 'Page6': 'O28:T54'}

Спасибо Алексею Филоненко за его замечательный генератор названий столбцов .


Альтернатива xlrd для .xls файлов.

import xlrd

def num_to_excel_col(n):
    if n < 1:
        raise ValueError("Number must be positive")
    result = ""
    while True:
        if n > 26:
            n, r = divmod(n - 1, 26)
            result = chr(r + ord('A')) + result
        else:
            return chr(n + ord('A') - 1) + result


workbook = xlrd.open_workbook("Demo.xls", formatting_info=True)
worksheet = workbook.sheets()[0]

vertical_breaks = worksheet.vertical_page_breaks
vertical_breaks.insert(0, (0,0,0))
horizontal_breaks = worksheet.horizontal_page_breaks
horizontal_breaks.insert(0, (0,0,0))

last_row = worksheet.nrows
last_col = worksheet.ncols

pages = {}
cnt=1
for v, v_break in enumerate(vertical_breaks):
    for h, h_break in enumerate(horizontal_breaks):
        start_col = num_to_excel_col(vertical_breaks[v][0]+1)
        start_row = horizontal_breaks[h][0]+1
        end_col = num_to_excel_col(vertical_breaks[v+1][0] if v+1 < len(vertical_breaks) else last_col)
        end_row = horizontal_breaks[h+1][0] if h+1 < len(horizontal_breaks) else last_row
        pages[f"Page{cnt}"] = f"{start_col}{start_row}:{end_col}{end_row}"
        cnt+=1

print(pages)

{'Page1': 'A1:F27', 'Page2': 'A28:F54', 'Page3': 'G1:N27', 'Page4': 'G28:N54', 'Page5': 'O1:T27', 'Page6': 'O28:T54'}

Ответ @DaSt великолепен, и единственная проблема в том, что xlrd несовместим с xlsx.

Меня вдохновляет ответ, в котором используются worksheet.vertical_page_breaks и worksheet.horizontal_page_breaks.

https://openpyxl.readthedocs.io/en/stable/api/openpyxl.worksheet.pagebreak.html Я обнаружил, что последняя версия openpyxl (3.1.3) действительно имеет модуль pageBreak.

pageBreak доступен по row_breaks и col_breaks.

workbook.worksheet[0].row_breaks.brk
workbook.worksheet[0].col_breaks.brk

Объединив способ, который я написал выше, с ответом @DaSt, я могу получить ожидаемый ответ.

Отличный улов! Я обновил свой ответ, включив в него openpyxl. Не стесняйтесь принять это, если вам не нужны дальнейшие улучшения :)

DaSt 09.08.2024 13:51

Другие вопросы по теме