Python 3.6, преобразование utf-8 в unicode, строка с двойной обратной косой чертой

Есть много вопросов о преобразовании utf-8> unicode, но я до сих пор не нашел ответа на свою проблему.

У нас есть такие строки:

a = "Je-li pro za\\xc5\\x99azov\\xc3\\xa1n\\xc3\\xad"

Python 3.6 понимает эту строку как Je-li pro za \ xc5 \ x99azov \ xc3 \ xa1n \ xc3 \ xad. Мне нужно преобразовать эту строку, похожую на utf-8, в представление Unicode. Конечный результат должен быть Je-li pro zařazování.

С a.decode("utf-8") я получаю AttributeError: объект 'str' не имеет атрибута 'decode', потому что Python означает, что объект уже декодирован.

Если я сначала конвертирую его в байты с помощью bytes(a, "utf-8"), обратные косые черты удваиваются, и .decode("utf-8") снова возвращает его в мой текущий a.

Как получить строку юникода Je-li pro zařazování с этого a?

Не помогает это? (и прежде чем вы скажете «нет, это не так», он не использует bytes(a,"utf-8"), вам нужно более подробное объяснение.)

— 10.04.2018 16:24

И ... почему у вас два \?

— 10.04.2018 16:25

как-сделать-я-не-escape-а-обратная косая черта-экранированная-строка-в-питоне

— 10.04.2018 16:26

Почему две обратные косые черты ... Это результат одного странного API, который возвращает некоторые символы в декодированном виде, а некоторые нет.

— 10.04.2018 20:36

python-3.x unicode utf-8 python-unicode

10.04.2018 16:21

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

4 930

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вам нужно 4 раза кодировать / декодировать, чтобы получить желаемый результат:

print(
  "Je-li pro za\\xc5\\x99azov\\xc3\\xa1n\\xc3\\xad"

  # actually any encoding support printable ASCII would work, for example utf-8
  .encode('ascii')

  # unescape the string
  # source: https://stackoverflow.com/a/1885197
  .decode('unicode-escape')

  # latin-1 also works, see https://stackoverflow.com/q/7048745
  .encode('iso-8859-1')

  # finally
  .decode('utf-8')
)

Попробуйте онлайн!

Кроме того, подумайте о том, чтобы указать целевой программе (источнику данных) другой формат вывода (например, массив байтов или кодировку base64), если можете.

Небезопасный, но более короткий путь:

st = "Je-li pro za\\xc5\\x99azov\\xc3\\xa1n\\xc3\\xad"
print(eval("b'"+st+"'").decode('utf-8'))

Попробуйте онлайн!

Есть ast.literal_eval, но, возможно, здесь его не стоит использовать.

10.04.2018 16:44

Другие вопросы по теме

Невозможно избавиться от символов в Webscraped Table во фрейме данных

Отсутствуют латинские символы в Mono GDI +

Локаль Javascript Сравнение с акцентами дает мне странные результаты

Преобразование юникода в читаемые символы в R

Обработка нескольких языков с помощью модуля xml.tree.ElementTree

Обнаружение и замена символа LSEP (& # xB;)

Как реализовать Char.IsCurrencySymbol?

Как рисовать fontawesome (версия> = 5.0) на холсте?

Маска порядка байтов: сбивает с толку кодировку UTF

Руби "получает" не работает с японскими иероглифами

Python 3.6, преобразование utf-8 в unicode, строка с двойной обратной косой чертой

Ответы 1

Другие вопросы по теме

Похожие вопросы