Я использую документы Google, и некоторые используемые нами шаблоны были созданы с помощью MS-Office.
В результате HTML получился жирным и уродливым, а ограничение в 500 КБ на документ в Google делает некоторую очистку обязательной.
Мне удалось найти избыточные атрибуты «стиля» и переместить их в какой-либо класс CSS, а также переименовать наиболее избыточные имена классов в более короткие, что позволило мне сэкономить около 50% от исходного размера.
Знаете ли вы о некоторых существующих инструментах / скриптах / lib, которые могли бы сделать для меня эту болезненную работу или, по крайней мере, помочь мне написать этот волшебный инструмент?
Заранее спасибо !
Обновлено: Я попробовал и приборку, и деморонайзер, и "ручную перезапись":
- Ввод: 140 КБ
- Tidy'ed: 110Kb
.
- Деморонизировано: 135 Кб
Так что мой любимый ответ будет «перепиши это!»
Спасибо !






Вы можете попробовать аккуратный, он многое уберет.
MS-Office делает дрянной HTML, и точка. Лучше потратить время на восстановление HTML из исходного текста, чем пытаться пройти через это минное поле.
Я сделал несколько макросов, которые выполняют некоторые функции поиска / замены в Word, чтобы делать базовые вещи, такие как обертывание тегов <p> вокруг абзацев и тому подобное, а затем повторная разметка всего этого с нуля.
Не комментируя его название, я мог бы упомянуть деморонизатор, который автор описывает как:
...a Perl program available for downloading from this site which corrects numerous errors and incompatibilities in HTML generated by, or edited with, Microsoft applications.
YMMV.
Одна из моих любимых утилит сейчас на самом деле Windows Live Writer - она отлично справляется с удалением мусора из файлов Word. Кто-то может не согласиться, но я использую его довольно часто!