Получите чистую строку из HTML, CSS и JavaScript

В настоящее время я пытаюсь очистить текстовые файлы размером 10 КБ на sec.gov.

Вот пример текстового файла:
https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt

Текстовый документ содержит такие вещи, как HTML-теги, стили CSS и JavaScript. В идеале я бы хотел очистить только контент после удаления всех тегов и стилей.

Сначала я попробовал очевидный метод get_text() от BeautifulSoup. Это не сработало. Затем я попытался использовать регулярное выражение, чтобы удалить все между <и>. К сожалению, и это полностью не сработало. Он хранит некоторые теги, стили и скрипты.

Есть ли у кого-нибудь чистое решение для достижения моей цели?

Вот мой код:

import requests
import re

url = 'https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt'
response = requests.get(url)
text = re.sub('<.*?>', '', response.text)
print(text)

python regex python-3.x web-scraping

05.09.2018 18:29

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

888

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Установим фиктивную строку на примере:

original_content = """
<script>console.info("test");</script>
<TD VALIGN = "bottom" ALIGN = "center"><FONT STYLE = "font-family:Arial; ">(Address of principal executive offices)</FONT></TD>
"""

Теперь удалим весь javascript.

from lxml.html.clean import Cleaner # remove javascript

# Delete javascript tags (some other options are left for the sake of example).

cleaner = Cleaner(
    comments = True, # True = remove comments
    meta=True, # True = remove meta tags
    scripts=True, # True = remove script tags
    embedded = True, # True = remove embeded tags
)
clean_dom = cleaner.clean_html(original_content)

(От https://stackoverflow.com/a/46371211/1204332)

А затем мы можем удалить HTML-теги (извлечь текст) с помощью библиотеки HTMLParser:

from HTMLParser import HTMLParser

# Strip HTML.

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

text_content = strip_tags(clean_dom)

print text_content

(От: https://stackoverflow.com/a/925630/1204332)

Или мы могли бы получить текст с помощью библиотеки lxml:

from lxml.html import fromstring

print fromstring(original_content).text_content()

Тот факт, что мы используем здесь класс, является лишь деталью реализации этой библиотеки (HTMLParser). Вы можете увидеть документацию здесь: docs.python.org/2/library/htmlparser.html. Как вы можете видеть на их странице, вот как они это делают. Занятия удобны, загляните, когда у вас будет время. :) Хорошее кодирование и добро пожаловать в Stack Overflow!

— 05.09.2018 19:29

Думаю, разница заключается в используемых парсерах и методах. В то время как lxml является привязкой для библиотек C libxml2 и libxslt, библиотека HTMLParser представляет собой гораздо более простое решение на основе Python. Для полноты картины я добавил в ответ опцию lxml. Если все, что вам нужно, это очистить теги HTML, возможно, вам удастся обойтись только с помощью HTMLParser. По моему опыту, lxml часто был лучшим инструментом. Но я все еще использую HTMLParser для удаления HTML-тегов, поскольку он отлично справляется со своей работой.

— 05.09.2018 23:21

05.09.2018 19:11