Загрузка HTML и извлечение текста

Какой был бы хороший инструмент или набор инструментов для загрузки списка URL-адресов и извлечения только текстового содержимого? Spidering не требуется, но контроль над именами загружаемых файлов и потоковая передача будут бонусом.

Платформа - linux.

Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer
Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer
В настоящее время производительность загрузки веб-сайта имеет решающее значение не только для удобства пользователей, но и для ранжирования в...
Введение в CSS
Введение в CSS
CSS является неотъемлемой частью трех основных составляющих front-end веб-разработки.
Как выровнять Div по центру?
Как выровнять Div по центру?
Чтобы выровнять элемент <div>по горизонтали и вертикали с помощью CSS, можно использовать комбинацию свойств и значений CSS. Вот несколько методов,...
Навигация по приложениям React: Исчерпывающее руководство по React Router
Навигация по приложениям React: Исчерпывающее руководство по React Router
React Router стала незаменимой библиотекой для создания одностраничных приложений с навигацией в React. В этой статье блога мы подробно рассмотрим...
Система управления парковками с использованием HTML, CSS и JavaScript
Система управления парковками с использованием HTML, CSS и JavaScript
Веб-сайт по управлению парковками был создан с использованием HTML, CSS и JavaScript. Это простой сайт, ничего вычурного. Основная цель -...
Toor - Ангулярный шаблон для бронирования путешествий
Toor - Ангулярный шаблон для бронирования путешествий
Toor - Travel Booking Angular Template один из лучших Travel & Tour booking template in the world. 30+ валидированных HTML5 страниц, которые помогут...
4
0
3 599
6
Перейти к ответу Данный вопрос помечен как решенный

Ответы 6

Ответ принят как подходящий

wget|html2ascii

Примечание: html2ascii также может называться html2a или html2text (и мне не удалось найти для него подходящую страницу руководства в сети).

См. Также: lynx.

Есть ли в html2text вариант полосы пропускания пробелов, потому что я не смог его найти

Cammel 12.01.2009 20:55

Не то, чтобы я в курсе, но вы можете использовать awk / sed / perl ... и т. д., Чтобы удалить пробелы

dsm 13.01.2009 11:44

Следите за ограничениями в инструментах. lynx, например, не будет отображать такие вещи, как таблицы. Если html2ascii чем-то похож на pdftotext, он может сохранять таблицы нетронутыми, но ограничивает вывод до 80 символов в строке. Учитывая скромно широкую таблицу, которая могла бы удобно поместиться, скажем, в 150 символов в строке, она будет вставлять новые строки и добавлять текст по вертикали и полностью разрушать удобочитаемость и / или пригодность для чтения (если это слово).

Brian Vandenberg 31.07.2013 21:25

Я знаю, что w3m можно использовать для рендеринга html-документа и помещения текстового содержимого в текстовый файл. например w3m www.google.com> file.txt.

В остальном я уверен, что wget можно использовать.

Ищите парсер Simple HTML DOM для PHP на Sourceforge. Используйте его для анализа HTML, который вы загрузили с помощью CURL. Каждый элемент DOM будет иметь атрибут «plaintext», который должен давать вам только текст. Я был очень успешным во многих приложениях, использующих эту комбинацию в течение довольно долгого времени.

PERL (Практический язык извлечения и отчетности) - это язык сценариев, который отлично подходит для этого типа работы. http://search.cpan.org/ содержит набор модулей, которые имеют требуемую функциональность.

Используйте wget для загрузки необходимого html, а затем запустите html2text для выходных файлов.

Python Красивый суп позволяет создать хороший экстрактор.

Другие вопросы по теме