Какой был бы хороший инструмент или набор инструментов для загрузки списка URL-адресов и извлечения только текстового содержимого? Spidering не требуется, но контроль над именами загружаемых файлов и потоковая передача будут бонусом.
Платформа - linux.






Примечание: html2ascii также может называться html2a или html2text (и мне не удалось найти для него подходящую страницу руководства в сети).
Не то, чтобы я в курсе, но вы можете использовать awk / sed / perl ... и т. д., Чтобы удалить пробелы
Следите за ограничениями в инструментах. lynx, например, не будет отображать такие вещи, как таблицы. Если html2ascii чем-то похож на pdftotext, он может сохранять таблицы нетронутыми, но ограничивает вывод до 80 символов в строке. Учитывая скромно широкую таблицу, которая могла бы удобно поместиться, скажем, в 150 символов в строке, она будет вставлять новые строки и добавлять текст по вертикали и полностью разрушать удобочитаемость и / или пригодность для чтения (если это слово).
Я знаю, что w3m можно использовать для рендеринга html-документа и помещения текстового содержимого в текстовый файл. например w3m www.google.com> file.txt.
В остальном я уверен, что wget можно использовать.
Ищите парсер Simple HTML DOM для PHP на Sourceforge. Используйте его для анализа HTML, который вы загрузили с помощью CURL. Каждый элемент DOM будет иметь атрибут «plaintext», который должен давать вам только текст. Я был очень успешным во многих приложениях, использующих эту комбинацию в течение довольно долгого времени.
PERL (Практический язык извлечения и отчетности) - это язык сценариев, который отлично подходит для этого типа работы. http://search.cpan.org/ содержит набор модулей, которые имеют требуемую функциональность.
Используйте wget для загрузки необходимого html, а затем запустите html2text для выходных файлов.
Python Красивый суп позволяет создать хороший экстрактор.
Есть ли в html2text вариант полосы пропускания пробелов, потому что я не смог его найти