Я пытаюсь получить каждую страницу «Предварительного просмотра разрыва страницы». Точнее говоря, мне нужно знать, какие ячейки содержит страница 1, какие ячейки содержит страница 2 и так далее.
Не могли бы вы научить меня, как реализовать эту функциональность в Python 3.12? Я попробовал openpyxl
, но и другие библиотеки приветствуются.
Я обнаружил, что openpyxl
имеет переменную print_area
, но эта переменная возвращает только всю область печати, которая содержит все страницы, поэтому я не могу знать, какой странице принадлежит каждая ячейка.
Как вы можете видеть код и снимок экрана, результат — A1:R50
, который содержит как страницу 1, так и страницу 2.
В этом примере ожидаемый результат выглядит примерно так: {'Page1': 'A1:I50', 'Page2':'J1:R50'}
.
from openpyxl import load_workbook
workbook = load_workbook(filename = "./sample_loader_data/sample.xlsx",
read_only=True,
data_only=True,
)
workbook.worksheets[0].print_area # Result: "'Test worksheet'!$A$1:$R$50"
@moken или есть способ узнать количество страниц на листе?
Хорошо, если два диапазона расположены рядом друг с другом, они кажутся объединенными, но если они разделены хотя бы столбцом, вы увидите их как два отдельных диапазона. Например, если я установлю два диапазона как A1:H10 и J1:R10, область печати будет отображаться как '\'Sheet1\'!$A$1:$H$10,\'Sheet1\'!$J$1:$R$10'
, кстати, это определенный диапазон в Excel под названием «Print_Area», поэтому вы можете увидеть там, что вернет это значение.
Я не смог увидеть количество страниц в Openpyxl, его нет в ws.page_setup
(но возможно, что его можно получить). Его можно получить из Xlwings ws.page_setup.api.Pages.Count
Почему вы смотрите на частную переменную, _print_area
и она не зря является частной, когда вы действительно хотите посмотреть на разрывы страниц?
Как прокомментировано здесь, это невозможно с openpyxl
ОБНОВЛЕНИЕ: Как правильно ответил @dmjy, теперь это возможно с помощью openpyxl
.
from openpyxl import load_workbook
import re
def num_to_excel_col(n):
if n < 1:
raise ValueError("Number must be positive")
result = ""
while True:
if n > 26:
n, r = divmod(n - 1, 26)
result = chr(r + ord('A')) + result
else:
return chr(n + ord('A') - 1) + result
workbook = load_workbook(filename = "Demo.xlsx")
vertical_breaks = [0]+[page_break.id for page_break in workbook.worksheets[0].col_breaks.brk]
horizontal_breaks = [0]+[page_break.id for page_break in workbook.worksheets[0].row_breaks.brk]
last_cell = workbook.worksheets[0].dimensions.split(":")[1]
last_col = ''.join(re.findall(r'[a-zA-Z]+', last_cell))
last_row = ''.join(re.findall(r'\d+', last_cell))
pages = {}
cnt=1
for v, v_break in enumerate(vertical_breaks):
for h, h_break in enumerate(horizontal_breaks):
start_col = num_to_excel_col(vertical_breaks[v]+1)
start_row = horizontal_breaks[h]+1
end_col = num_to_excel_col(vertical_breaks[v+1]) if v+1 < len(vertical_breaks) else last_col
end_row = horizontal_breaks[h+1] if h+1 < len(horizontal_breaks) else last_row
pages[f"Page{cnt}"] = f"{start_col}{start_row}:{end_col}{end_row}"
cnt+=1
print(pages)
Для этого примера
Он правильно выводит
{'Page1': 'A1:F27', 'Page2': 'A28:F54', 'Page3': 'G1:N27', 'Page4': 'G28:N54', 'Page5': 'O1:T27', 'Page6': 'O28:T54'}
Спасибо Алексею Филоненко за его замечательный генератор названий столбцов .
Альтернатива xlrd
для .xls
файлов.
import xlrd
def num_to_excel_col(n):
if n < 1:
raise ValueError("Number must be positive")
result = ""
while True:
if n > 26:
n, r = divmod(n - 1, 26)
result = chr(r + ord('A')) + result
else:
return chr(n + ord('A') - 1) + result
workbook = xlrd.open_workbook("Demo.xls", formatting_info=True)
worksheet = workbook.sheets()[0]
vertical_breaks = worksheet.vertical_page_breaks
vertical_breaks.insert(0, (0,0,0))
horizontal_breaks = worksheet.horizontal_page_breaks
horizontal_breaks.insert(0, (0,0,0))
last_row = worksheet.nrows
last_col = worksheet.ncols
pages = {}
cnt=1
for v, v_break in enumerate(vertical_breaks):
for h, h_break in enumerate(horizontal_breaks):
start_col = num_to_excel_col(vertical_breaks[v][0]+1)
start_row = horizontal_breaks[h][0]+1
end_col = num_to_excel_col(vertical_breaks[v+1][0] if v+1 < len(vertical_breaks) else last_col)
end_row = horizontal_breaks[h+1][0] if h+1 < len(horizontal_breaks) else last_row
pages[f"Page{cnt}"] = f"{start_col}{start_row}:{end_col}{end_row}"
cnt+=1
print(pages)
{'Page1': 'A1:F27', 'Page2': 'A28:F54', 'Page3': 'G1:N27', 'Page4': 'G28:N54', 'Page5': 'O1:T27', 'Page6': 'O28:T54'}
Ответ @DaSt великолепен, и единственная проблема в том, что xlrd
несовместим с xlsx.
Меня вдохновляет ответ, в котором используются worksheet.vertical_page_breaks
и worksheet.horizontal_page_breaks
.
https://openpyxl.readthedocs.io/en/stable/api/openpyxl.worksheet.pagebreak.html
Я обнаружил, что последняя версия openpyxl
(3.1.3) действительно имеет модуль pageBreak
.
pageBreak
доступен по row_breaks
и col_breaks
.
workbook.worksheet[0].row_breaks.brk
workbook.worksheet[0].col_breaks.brk
Объединив способ, который я написал выше, с ответом @DaSt, я могу получить ожидаемый ответ.
Отличный улов! Я обновил свой ответ, включив в него openpyxl
. Не стесняйтесь принять это, если вам не нужны дальнейшие улучшения :)
Не знаю, что ты можешь. В XML есть только настройка области печати, которая показывает весь диапазон от A1 до R50, что отражено в значении Openpyxl. Я также посмотрел на Xlwings, и у них есть тот же самый полный ассортимент, который я мог видеть.