Как выполнить декодирование / кодирование HTML с помощью Python / Django?

У меня есть строка в кодировке HTML:

'''&lt;img class=&quot;size-medium wp-image-113&quot;\
 style=&quot;margin-left: 15px;&quot; title=&quot;su1&quot;\
 src=&quot;http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg&quot;\
 alt=&quot;&quot; width=&quot;300&quot; height=&quot;194&quot; /&gt;'''

Я хочу изменить это на:

<img class = "size-medium wp-image-113" style = "margin-left: 15px;" 
  title = "su1" src = "http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg" 
  alt = "" width = "300" height = "194" />

Я хочу, чтобы это было зарегистрировано как HTML, чтобы оно отображалось браузером как изображение, а не как текст.

Строка хранится так, потому что я использую инструмент для очистки веб-страниц под названием BeautifulSoup, он «сканирует» веб-страницу и получает от нее определенный контент, а затем возвращает строку в этом формате.

Я нашел, как это сделать в C#, но не в Python. Кто-нибудь может мне помочь?

Связанный

Преобразование объектов XML / HTML в строку Unicode в Python

python django html-encode

08.11.2008 23:44

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

136

185 123

Перейти к ответу Данный вопрос помечен как решенный

Ответы 15

Я нашел это в исходном коде Cheetah (здесь)

htmlCodes = [
    ['&', '&amp;'],
    ['<', '&lt;'],
    ['>', '&gt;'],
    ['"', '&quot;'],
]
htmlCodesReversed = htmlCodes[:]
htmlCodesReversed.reverse()
def htmlDecode(s, codes=htmlCodesReversed):
    """ Returns the ASCII decoded version of the given HTML string. This does
        NOT remove normal HTML tags like <p>. It is the inverse of htmlEncode()."""
    for code in codes:
        s = s.replace(code[1], code[0])
    return s

не уверен, почему они перевернули список, Я думаю, это связано с тем, как они кодируются, поэтому с вами, возможно, не нужно менять местами. Также, если бы я был вами, я бы изменил htmlCodes на список кортежей, а не на список списков ... хотя это происходит в моей библиотеке :)

Я заметил, что ваш заголовок тоже просил кодировать, так что вот функция кодирования Cheetah.

def htmlEncode(s, codes=htmlCodes):
    """ Returns the HTML encoded version of the given string. This is useful to
        display a plain ASCII text string on a web page."""
    for code in codes:
        s = s.replace(code[0], code[1])
    return s

Список перевернут, потому что замены декодирования и кодирования всегда должны выполняться симметрично. Без реверса вы могли бы, например. преобразовать '& amp; lt;' в '& lt;', затем на следующем шаге неправильно преобразовать это в '<'.

— 09.11.2008 04:08

08.11.2008 23:58

Ответ принят как подходящий

Учитывая вариант использования Django, есть два ответа на этот вопрос. Вот его функция django.utils.html.escape для справки:

def escape(html):
    """Returns the given HTML with ampersands, quotes and carets encoded."""
    return mark_safe(force_unicode(html).replace('&', '&amp;').replace('<', '&l
t;').replace('>', '&gt;').replace('"', '&quot;').replace("'", '&#39;'))

Чтобы изменить это, функция Cheetah, описанная в ответе Джейка, должна работать, но в ней отсутствует одинарная кавычка. Эта версия включает обновленный кортеж с обратным порядком замены, чтобы избежать симметричных проблем:

def html_decode(s):
    """
    Returns the ASCII decoded version of the given HTML string. This does
    NOT remove normal HTML tags like <p>.
    """
    htmlCodes = (
            ("'", '&#39;'),
            ('"', '&quot;'),
            ('>', '&gt;'),
            ('<', '&lt;'),
            ('&', '&amp;')
        )
    for code in htmlCodes:
        s = s.replace(code[1], code[0])
    return s

unescaped = html_decode(my_string)

Однако это не общее решение; он подходит только для строк, закодированных с помощью django.utils.html.escape. В более общем плане рекомендуется придерживаться стандартной библиотеки:

# Python 2.x:
import HTMLParser
html_parser = HTMLParser.HTMLParser()
unescaped = html_parser.unescape(my_string)

# Python 3.x:
import html.parser
html_parser = html.parser.HTMLParser()
unescaped = html_parser.unescape(my_string)

# >= Python 3.5:
from html import unescape
unescaped = unescape(my_string)

В качестве предложения: может иметь смысл хранить HTML без экранирования в вашей базе данных. Если возможно, стоит подумать о получении неэкранированных результатов обратно из BeautifulSoup и вообще избежать этого процесса.

В Django экранирование происходит только во время рендеринга шаблона; поэтому, чтобы предотвратить побег, вы просто скажете движку шаблонов не экранировать вашу строку. Для этого используйте в своем шаблоне одну из следующих опций:

{{ context_var|safe }}
{% autoescape off %}
    {{ context_var }}
{% endautoescape %}

Почему бы не использовать Django или Cheetah?

— 08.02.2009 00:26

Нет ли противоположности django.utils.html.escape?

— 08.02.2009 00:38

Я думаю, что экранирование происходит только в Django во время рендеринга шаблона. Следовательно, нет необходимости в отмене экранирования - вы просто говорите движку шаблонов, чтобы он не сбегал. либо {{context_var | safe}}, либо {% autoescape off%} {{context_var}} {% endautoescape%}

— 08.02.2009 04:03

@Daniel: Пожалуйста, измените свой комментарий на ответ, чтобы я мог проголосовать за него! | safe было именно тем, что я (и я уверен, что другие) искал, отвечая на этот вопрос.

— 23.06.2009 11:12

Должно быть '& # 39;' вместо "& # 39; /".

— 23.09.2009 10:57

Я обнаружил, что в django 1.3.x мне не удалось экранировать одинарные кавычки.

— 16.11.2013 00:29

html.parser.HTMLParser().unescape() устарел в версии 3.5. Вместо этого используйте html.unescape().

— 30.09.2015 04:11

Хороший вариант вернуть строку в предыдущее состояние. Спасибо

— 30.03.2021 02:20

09.11.2008 00:40

Используйте решение Дэниела, если набор закодированных символов относительно ограничен. В противном случае используйте одну из многочисленных библиотек анализа HTML.

Мне нравится BeautifulSoup, потому что он может обрабатывать искаженный XML / HTML:

http://www.crummy.com/software/BeautifulSoup/

на ваш вопрос есть пример в их документация

from BeautifulSoup import BeautifulStoneSoup
BeautifulStoneSoup("Sacr&eacute; bl&#101;u!", 
                   convertEntities=BeautifulStoneSoup.HTML_ENTITIES).contents[0]
# u'Sacr\xe9 bleu!'

BeautifulSoup не конвертирует шестнадцатеричные объекты (& # x65;) stackoverflow.com/questions/57708/…

— 17.03.2009 23:46

Для BeautifulSoup4 эквивалент будет: from bs4 import BeautifulSoupBeautifulSoup("Sacré bleu!").contents[0]

— 27.01.2013 07:47

09.11.2008 04:15

См. В нижней части этого страница в Python wiki, есть как минимум 2 варианта "отмены экранирования" html.

23.11.2008 16:50

Для кодировки html есть cgi.escape из стандартной библиотеки:

>> help(cgi.escape)
cgi.escape = escape(s, quote=None)
    Replace special characters "&", "<" and ">" to HTML-safe sequences.
    If the optional flag quote is true, the quotation mark character (")
    is also translated.

Для декодирования html я использую следующее:

import re
from htmlentitydefs import name2codepoint
# for some reason, python 2.5.2 doesn't have this one (apostrophe)
name2codepoint['#39'] = 39

def unescape(s):
    "unescape HTML code refs; c.f. http://wiki.python.org/moin/EscapingHtml"
    return re.sub('&(%s);' % '|'.join(name2codepoint),
              lambda m: unichr(name2codepoint[m.group(1)]), s)

Для чего-то более сложного я использую BeautifulSoup.

16.01.2009 04:12

Комментарий Даниила в качестве ответа:

"экранирование происходит только в Django во время рендеринга шаблона. Следовательно, в этом нет необходимости - вы просто указываете движку шаблонов, чтобы он не экранировался. либо {{context_var | safe}}, либо {% autoescape off%} {{context_var}} { % endautoescape%} "

Работает, за исключением того, что в моей версии Django нет «безопасной». Вместо этого я использую «побег». Полагаю, это то же самое.

— 28.12.2009 14:23

@willem: они наоборот!

— 21.01.2015 03:35

25.10.2009 02:04

Я нашел прекрасную функцию по адресу: http://snippets.dzone.com/posts/show/4569

def decodeHtmlentities(string):
    import re
    entity_re = re.compile("&(#?)(\d{1,5}|\w{1,8});")

    def substitute_entity(match):
        from htmlentitydefs import name2codepoint as n2cp
        ent = match.group(2)
        if match.group(1) == "#":
            return unichr(int(ent))
        else:
            cp = n2cp.get(ent)

            if cp:
                return unichr(cp)
            else:
                return match.group()

    return entity_re.subn(substitute_entity, string)[0]

Преимущество использования re заключается в том, что вы можете сопоставить оба & # 039; и & # 39; используя тот же поиск.

— 15.10.2010 17:38

Это не обрабатывает  , который должен декодировать то же самое, что и   и  .

— 15.12.2011 21:49

17.07.2010 17:27

Со стандартной библиотекой:

HTML Escape

try:
    from html import escape  # python 3.x
except ImportError:
    from cgi import escape  # python 2.x

print(escape("<"))

HTML Unescape

try:
    from html import unescape  # python 3.4+
except ImportError:
    try:
        from html.parser import HTMLParser  # python 3.x (<3.4)
    except ImportError:
        from HTMLParser import HTMLParser  # python 2.x
    unescape = HTMLParser().unescape

print(unescape("&gt;"))

Я думаю, что это наиболее простой и правильный ответ «с батареей». Я не знаю, почему люди голосуют за эту штуку с Django / Cheetah.

— 28.03.2012 17:04

Я тоже так думаю, за исключением того, что этот ответ не кажется полным. HTMLParser необходимо разделить на подклассы, указать, что делать со всеми частями любого объекта, который он загружает, а затем передать объект для анализа, как показано здесь. Кроме того, вы все равно захотите использовать dict name2codepoint для преобразования каждого идентификатора html в фактический символ, который он представляет.

— 09.07.2012 22:43

Ты прав. Неклассифицированный HTMLParser не смог бы работать так, как мы хотели бы, если бы мы поместили в него HTML-сущность. Может быть, мне следует переименовать htmlparser в _htmlparser, чтобы скрыть его, и предоставить метод unescape только как вспомогательную функцию.

— 10.07.2012 05:02

Примечание для 2015 года: HTMLParser.unescape устарел в py 3.4 и удален в 3.5. используйте from html import unescape вместо

— 11.11.2015 15:32

@KarolisRyselis Ответ обновлен. Спасибо!

— 11.11.2015 17:19

Обратите внимание, что это не обрабатывает специальные символы, такие как немецкие умляуты ("Ü").

— 15.11.2015 22:11

@ 576i Не могли бы вы уточнить? Unescaping у меня работает с Python2 + 3.

— 19.07.2017 15:17

17.08.2011 09:51

Ниже представлена функция Python, использующая модуль htmlentitydefs. Это не идеально. У меня есть неполная версия htmlentitydefs, и она предполагает, что все объекты декодируются в одну кодовую точку, что неверно для таких объектов, как &NotEqualTilde;:

http://www.w3.org/TR/html5/ named-character-references.html

NotEqualTilde;     U+02242 U+00338    ≂̸

С учетом этих предостережений, вот код.

def decodeHtmlText(html):
    """
    Given a string of HTML that would parse to a single text node,
    return the text value of that node.
    """
    # Fast path for common case.
    if html.find("&") < 0: return html
    return re.sub(
        '&(?:#(?:x([0-9A-Fa-f]+)|([0-9]+))|([a-zA-Z0-9]+));',
        _decode_html_entity,
        html)

def _decode_html_entity(match):
    """
    Regex replacer that expects hex digits in group 1, or
    decimal digits in group 2, or a named entity in group 3.
    """
    hex_digits = match.group(1)  # '&#10;' -> unichr(10)
    if hex_digits: return unichr(int(hex_digits, 16))
    decimal_digits = match.group(2)  # '&#x10;' -> unichr(0x10)
    if decimal_digits: return unichr(int(decimal_digits, 10))
    name = match.group(3)  # name is 'lt' when '&lt;' was matched.
    if name:
        decoding = (htmlentitydefs.name2codepoint.get(name)
            # Treat &GT; like &gt;.
            # This is wrong for &Gt; and &Lt; which HTML5 adopted from MathML.
            # If htmlentitydefs included mappings for those entities,
            # then this code will magically work.
            or htmlentitydefs.name2codepoint.get(name.lower()))
        if decoding is not None: return unichr(decoding)
    return match.group(0)  # Treat "&noSuchEntity;" as "&noSuchEntity;"

15.12.2011 22:01

Если кто-то ищет простой способ сделать это с помощью шаблонов django, вы всегда можете использовать такие фильтры:

<html>
{{ node.description|safe }}
</html>

У меня были данные от поставщика, и все, что я опубликовал, содержало html-теги, фактически написанные на отображаемой странице, как если бы вы смотрели на источник.

21.12.2011 21:08

Вы также можете использовать django.utils.html.escape

from django.utils.html import escape

something_nice = escape(request.POST['something_naughty'])

ОП спрашивал о том, чтобы не сбежать.

— 30.05.2012 20:43

В названии он тоже просил кодировку - просто нашел ваш ответ и благодарен за него.

— 11.07.2012 01:05

Не то, о чем спрашивал ОП, но я нашел это полезным.

— 31.03.2013 12:59

27.02.2012 20:01

Это самое простое решение этой проблемы -

{% autoescape on %}
   {{ body }}
{% endautoescape %}

От эта страница.

30.06.2012 13:56

Хотя это действительно старый вопрос, он может сработать.

Django 1.5.5

In [1]: from django.utils.text import unescape_entities
In [2]: unescape_entities('&lt;img class=&quot;size-medium wp-image-113&quot; style=&quot;margin-left: 15px;&quot; title=&quot;su1&quot; src=&quot;http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg&quot; alt=&quot;&quot; width=&quot;300&quot; height=&quot;194&quot; /&gt;')
Out[2]: u'<img class = "size-medium wp-image-113" style = "margin-left: 15px;" title = "su1" src = "http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg" alt = "" width = "300" height = "194" />'

Это был единственный способ декодировать суррогатные пары, закодированные как объекты HTML, например "&#55349;&#56996;". Потом, после еще одного result.encode('utf-16', 'surrogatepass').decode('utf-16'), я наконец получил обратно оригинал.

— 06.12.2016 23:04

02.02.2015 00:31

В Python 3.4+:

import html

html.unescape(your_string)

Ты спас мне день. Я часами искал ответ. Я сохранил тексты с немецкими умляутами в файл, и мне пришлось как-то их конвертировать обратно. Отлично работает. import html html.unescape ('Klima & # 228; nderungen') 'Klimaänderungen'

— 16.02.2021 13:50

08.07.2015 04:54

В поисках простейшего решения этого вопроса в Django и Python я обнаружил, что вы можете использовать встроенные их функции для экранирования / отмены экранирования html-кода.

Пример

Я сохранил ваш html-код в scraped_html и clean_html:

scraped_html = (
    '&lt;img class=&quot;size-medium wp-image-113&quot; '
    'style=&quot;margin-left: 15px;&quot; title=&quot;su1&quot; '
    'src=&quot;http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg&quot; '
    'alt=&quot;&quot; width=&quot;300&quot; height=&quot;194&quot; /&gt;'
)
clean_html = (
    '<img class = "size-medium wp-image-113" style = "margin-left: 15px;" '
    'title = "su1" src = "http://blah.org/wp-content/uploads/2008/10/su1-300x194.jpg" '
    'alt = "" width = "300" height = "194" />'
)

Джанго

Вам нужен Django> = 1.0

unescape

Чтобы отменить экранирование вашего очищенного html-кода, вы можете использовать django.utils.text.unescape_entities, который:

Convert all named and numeric character references to the corresponding unicode characters.

>>> from django.utils.text import unescape_entities
>>> clean_html == unescape_entities(scraped_html)
True

побег

Чтобы избежать вашего чистого html-кода, вы можете использовать django.utils.html.escape, который:

Returns the given text with ampersands, quotes and angle brackets encoded for use in HTML.

>>> from django.utils.html import escape
>>> scraped_html == escape(clean_html)
True

Python

Вам нужен Python> = 3.4

unescape

Чтобы отменить экранирование вашего очищенного html-кода, вы можете использовать html.unescape, который:

Convert all named and numeric character references (e.g. >, >, &x3e;) in the string s to the corresponding unicode characters.

>>> from html import unescape
>>> clean_html == unescape(scraped_html)
True

побег

Чтобы избежать вашего чистого html-кода, вы можете использовать html.escape, который:

Convert the characters &, < and > in string s to HTML-safe sequences.

>>> from html import escape
>>> scraped_html == escape(clean_html)
True

18.07.2018 17:13

Другие вопросы по теме

Какое регулярное выражение для /urlchecker/http://www.google.com

Как мне перечислить элементы в моих моделях Django?

Проблемы преобразования UTF-8 latin-1, python django

Аутентификация пользователя в Django

Как добавить значения по умолчанию (скрытые) в шаблоны форм в Django?

Django - Как выполнить распаковку кортежей в шаблоне цикла for

Как можно имитировать список рассылки в Django?

Поддержка нескольких баз данных в django

Формы Django, ошибка отображения на ModelMultipleChoiceField

Настраиваемые заголовки HTTP для статических файлов с Django

Как выполнить декодирование / кодирование HTML с помощью Python / Django?

Связанный

Ответы 15

Пример

Джанго

unescape

побег

Python

unescape

побег

Другие вопросы по теме

Похожие вопросы