Я конвертирую файл Word / .doc в HTML и хочу получить подмножество страниц. Можно ли ограничить диапазон вывода? Я открыт для создания нового HWPFDocument из оригинала только с подмножеством страниц или после преобразования ограничьте длину там.
File localFile = ...
FileInputStream fis = new FileInputStream(localFile);
HWPFDocument wordDoc = new HWPFDocument(fis);
Document newDoc = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDoc);
wordToHtmlConverter.processDocument(wordDoc);
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty(OutputKeys.INDENT, "yes");
transformer.setOutputProperty(OutputKeys.ENCODING, "utf-8");
transformer.setOutputProperty(OutputKeys.METHOD, "html");
transformer.transform(
new DOMSource(wordToHtmlConverter.getDocument()),
new StreamResult(stringWriter));
String htmlString = stringWriter.toString();
BufferedWriter out = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream(htmlFile), "UTF-8"));
out.write(htmlString);
out.close();




Только не с POI. Нет понятия страницы в формате HWPF. Страницы - это артефакт как потребитель. Страниц нет, пока их не отобразит потребитель, и каждый клиент может отображать страницы немного по-разному, даже в разных версиях Word.
Спасибо, да, я так и думал. Надеялся на другое, или кто-то, возможно, переопределил afterProcess () в WordToHtmlConverter, чтобы как-то обрезать ...
Прочтите это, stackoverflow.com/help/how-to-ask, и обновите свой вопрос.