Загрузка HTML и извлечение текста

Какой был бы хороший инструмент или набор инструментов для загрузки списка URL-адресов и извлечения только текстового содержимого? Spidering не требуется, но контроль над именами загружаемых файлов и потоковая передача будут бонусом.

Платформа - linux.

html linux text-extraction download

12.01.2009 17:22

Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer

В настоящее время производительность загрузки веб-сайта имеет решающее значение не только для удобства пользователей, но и для ранжирования в...

Введение в CSS

CSS является неотъемлемой частью трех основных составляющих front-end веб-разработки.

Как выровнять Div по центру?

Чтобы выровнять элемент <div>по горизонтали и вертикали с помощью CSS, можно использовать комбинацию свойств и значений CSS. Вот несколько методов,...

Навигация по приложениям React: Исчерпывающее руководство по React Router

React Router стала незаменимой библиотекой для создания одностраничных приложений с навигацией в React. В этой статье блога мы подробно рассмотрим...

Система управления парковками с использованием HTML, CSS и JavaScript

Веб-сайт по управлению парковками был создан с использованием HTML, CSS и JavaScript. Это простой сайт, ничего вычурного. Основная цель -...

Toor - Ангулярный шаблон для бронирования путешествий

Toor - Travel Booking Angular Template один из лучших Travel & Tour booking template in the world. 30+ валидированных HTML5 страниц, которые помогут...

3 599

Перейти к ответу Данный вопрос помечен как решенный

Ответы 6

Ответ принят как подходящий

wget|html2ascii

Примечание: html2ascii также может называться html2a или html2text (и мне не удалось найти для него подходящую страницу руководства в сети).

См. Также: lynx.

Есть ли в html2text вариант полосы пропускания пробелов, потому что я не смог его найти

— 12.01.2009 20:55

Не то, чтобы я в курсе, но вы можете использовать awk / sed / perl ... и т. д., Чтобы удалить пробелы

— 13.01.2009 11:44

Следите за ограничениями в инструментах. lynx, например, не будет отображать такие вещи, как таблицы. Если html2ascii чем-то похож на pdftotext, он может сохранять таблицы нетронутыми, но ограничивает вывод до 80 символов в строке. Учитывая скромно широкую таблицу, которая могла бы удобно поместиться, скажем, в 150 символов в строке, она будет вставлять новые строки и добавлять текст по вертикали и полностью разрушать удобочитаемость и / или пригодность для чтения (если это слово).

— 31.07.2013 21:25

12.01.2009 17:30

Я знаю, что w3m можно использовать для рендеринга html-документа и помещения текстового содержимого в текстовый файл. например w3m www.google.com> file.txt.

В остальном я уверен, что wget можно использовать.

12.01.2009 17:31

Ищите парсер Simple HTML DOM для PHP на Sourceforge. Используйте его для анализа HTML, который вы загрузили с помощью CURL. Каждый элемент DOM будет иметь атрибут «plaintext», который должен давать вам только текст. Я был очень успешным во многих приложениях, использующих эту комбинацию в течение довольно долгого времени.

12.01.2009 17:34

PERL (Практический язык извлечения и отчетности) - это язык сценариев, который отлично подходит для этого типа работы. http://search.cpan.org/ содержит набор модулей, которые имеют требуемую функциональность.

12.01.2009 17:36

Используйте wget для загрузки необходимого html, а затем запустите html2text для выходных файлов.

12.01.2009 17:40

Python Красивый суп позволяет создать хороший экстрактор.

12.01.2009 18:04