Чтение символов из файла в Python

В текстовом файле есть строка «Мне это не нравится».

Однако, когда я считываю это в строке, это становится «Я не \ xe2 \ x80 \ x98t как это». Я понимаю, что \ u2018 является представлением "'" в Юникоде. я использую

f1 = open (file1, "r")
text = f1.read()

команда для чтения.

Теперь, возможно ли прочитать строку таким образом, чтобы, когда она считывалась в строке, это было «Мне это не нравится» вместо «Я не \ xe2 \ x80 \ x98t вот так вот так»?

Второе редактирование: я видел, как некоторые люди использовали сопоставление для решения этой проблемы, но на самом деле нет встроенного преобразования, которое выполняет такое преобразование ANSI в unicode (и наоборот)?

кстати, ваш текстовый файл сломан! U + 2018 - это «ЛЕВЫЙ ОДИНОЧНЫЙ ЗНАК», а не апостроф (чаще всего U + 0027).

— 30.09.2008 23:51

дело в том, что вам нужно преобразовать UNICODE в ASCII (а не наоборот).

— 08.12.2008 15:21

Некоторые комментарии: Я видел, как некоторые люди использовали сопоставление для решения этой проблемы, но на самом деле нет встроенного преобразования, которое выполняет преобразование такого типа из ANSI в Unicode (и наоборот)? Спасибо!

— 29.09.2008 11:11

Нет, потому что существуют сотни тысяч кодовых точек Unicode. Как бы вы решили, какие символы ASCII должны быть сопоставлены?

— 29.09.2008 11:25

Джон, ваш комментарий неверен, по крайней мере, в общем смысле. iconv lib может использоваться для транслитерации символов Юникода в ascii (даже в зависимости от локали. $ python -c 'print u "\ u2018" .encode ("utf-8")' | iconv -t 'ascii // translit' | xxd 0000000: 270a

— 30.09.2008 23:59

python unicode encoding ascii

29.09.2008 10:47

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

109

228 069

Перейти к ответу Данный вопрос помечен как решенный

Ответы 9

Фактически, U + 2018 - это Unicode-представление специального символа ‘. Если хотите, вы можете преобразовать экземпляры этого символа в U + 0027 с помощью этого кода:

text = text.replace (u"\u2018", "'")

Кроме того, что вы используете для записи файла? f1.read() должен вернуть строку, которая выглядит следующим образом:

'I don\xe2\x80\x98t like this'

Если он возвращает строку это, файл записывается неправильно:

'I don\u2018t like this'

Извиняюсь! Как вы сказали, он возвращает 'Мне это не \ xe2 \ x80 \ x98t'

— 29.09.2008 10:59

То, что вы видите, «Мне это не нравится \ xe2 \ x80 \ x98t» - это то, что Python назвал бы str. Похоже, это кодировка utf-8 для u'I don \ u2018t like this ', которая является экземпляром Unicode в Python. Попробуйте вызвать .decode ('utf-8') для первого или .encode ('utf-8') для второго.

— 29.09.2008 11:11

@hop: упс, забыл, ord () возвращает десятичное число вместо шестнадцатеричного. Спасибо за улов.

— 01.10.2008 05:03

29.09.2008 10:52

Это способ Python показать вам строки в кодировке Unicode. Но я думаю, вы сможете без проблем распечатать строку на экране или записать ее в новый файл.

>>> test = u"I don\u2018t like this"
>>> test
u'I don\u2018t like this'
>>> print test
I don‘t like this

29.09.2008 10:54

Ответ принят как подходящий

Ссылка: http://docs.python.org/howto/unicode

Поэтому читать Unicode из файла очень просто:

import codecs
with codecs.open('unicode.rst', encoding='utf-8') as f:
    for line in f:
        print repr(line)

Также можно открывать файлы в режиме обновления, что позволяет читать и писать:

with codecs.open('test', encoding='utf-8', mode='w+') as f:
    f.write(u'\u4500 blah blah blah\n')
    f.seek(0)
    print repr(f.readline()[:1])

РЕДАКТИРОВАТЬ: Я предполагаю, что ваша намеченная цель - просто правильно прочитать файл в строке в Python. Если вы пытаетесь преобразовать в строку ASCII из Unicode, тогда на самом деле нет прямого способа сделать это, поскольку символы Unicode не обязательно будут существовать в ASCII.

Если вы пытаетесь преобразовать в строку ASCII, попробуйте одно из следующих действий:

Замените определенные символы Unicode эквивалентами ASCII, если вы хотите обрабатывать только несколько особых случаев, таких как этот конкретный пример.
Используйте unicodedata модуля normalize() и метод string.encode(), чтобы преобразовать как можно лучше в следующий ближайший эквивалент ASCII (Ref https://web.archive.org/web/20090228203858/http://techxplorer.com/2006/07/18/converting-unicode-to-ascii-using-python):
```
>>> teststr
u'I don\xe2\x80\x98t like this'
>>> unicodedata.normalize('NFKD', teststr).encode('ascii', 'ignore')
'I donat like this'
```

Модуль codecs неправильно обрабатывает универсальный режим новой строки. Вместо этого используйте io.open() на Python 2.7+ (он встроен в open() на Python 3).

— 05.06.2015 23:25

29.09.2008 10:55

Но на самом деле это «мне это не нравится», а не «мне это не нравится». Символ u '\ u2018' - это совершенно другой символ, чем "'" (и визуально должен больше соответствовать' '').

Если вы пытаетесь преобразовать закодированный Unicode в простой ASCII, возможно, вы могли бы сохранить отображение знаков препинания Unicode, которое вы хотели бы перевести в ASCII.

punctuation = {
  u'\u2018': "'",
  u'\u2019': "'",
}
for src, dest in punctuation.iteritems():
  text = text.replace(src, dest)

Однако существует очень много знаки препинания в юникоде, но я полагаю, вы можете рассчитывать на то, что лишь некоторые из них действительно будут использоваться любым приложением, создающим документы, которые вы читаете.

на самом деле, если вы сделаете dict сопоставление порядковых номеров Unicode с порядковыми номерами Unicode ({0x2018: 0x27, 0x2019: 0x27}), вы можете просто передать весь dict в text.translate (), чтобы выполнить всю замену за один раз.

— 29.09.2008 13:35

29.09.2008 11:00

Следует учесть несколько моментов.

Символ \ u2018 может появляться только как фрагмент представления строки Unicode в Python, например если вы напишете:

>>> text = u'‘'
>>> print repr(text)
u'\u2018'

Теперь, если вы просто хотите красиво распечатать строку Unicode, просто используйте метод Unicode encode:

>>> text = u'I don\u2018t like this'
>>> print text.encode('utf-8')
I don‘t like this

Чтобы убедиться, что каждая строка из любого файла будет читаться как unicode, вам лучше использовать функцию codecs.open вместо open, которая позволяет вам указать кодировку файла:

>>> import codecs
>>> f1 = codecs.open(file1, "r", "utf-8")
>>> text = f1.read()
>>> print type(text)
<type 'unicode'>
>>> print text.encode('utf-8')
I don‘t like this

29.09.2008 11:15

Существует вероятность того, что у вас есть строка, отличная от Unicode, с escape-символами Unicode, например:

>>> print repr(text)
'I don\u2018t like this'

На самом деле это однажды уже случалось со мной. Вы можете использовать кодек unicode_escape для декодирования строки в Unicode, а затем закодировать ее в любой желаемый формат:

>>> uni = text.decode('unicode_escape')
>>> print type(uni)
<type 'unicode'>
>>> print uni.encode('utf-8')
I don‘t like this

29.09.2008 11:22

Не говоря уже о том, что ваш текстовый файл поврежден (U + 2018 - это левая кавычка, а не апостроф): iconv можно использовать для транслитерации символов Юникода в ascii.

Вам придется поискать в Google "iconvcodec", поскольку модуль, похоже, больше не поддерживается, и я не могу найти для него каноническую домашнюю страницу.

>>> import iconvcodec
>>> from locale import setlocale, LC_ALL
>>> setlocale(LC_ALL, '')
>>> u'\u2018'.encode('ascii//translit')
"'"

В качестве альтернативы вы можете использовать утилиту командной строки iconv для очистки вашего файла:

$ xxd foo
0000000: e280 980a                                ....
$ iconv -t 'ascii//translit' foo | xxd
0000000: 270a                                     '.

01.10.2008 00:10

Также можно прочитать закодированный текстовый файл с помощью метода чтения python 3:

f = open (file.txt, 'r', encoding='utf-8')
text = f.read()
f.close()

В этом варианте нет необходимости импортировать какие-либо дополнительные библиотеки.

30.11.2018 01:40

Не уверен насчет опции (errors = "ignore"), но, похоже, она работает для файлов со странными символами Unicode.

with open(fName, "rb") as fData:
    lines = fData.read().splitlines()
    lines = [line.decode("utf-8", errors = "ignore") for line in lines]

02.01.2021 19:38

Другие вопросы по теме

Как работает поддержка TinyXML UTF-8?

Каковы лучшие практики обработки строк Unicode в C#?

Ruby: как разбить потенциально строку Unicode на байты

Java, юникод и шрифты

Сохранение результатов "tree / f / a" в текстовый файл с поддержкой Unicode

Как преобразовать символ Unicode в его эквивалент ASCII

Введите двухбайтовый символ в файл vbscript

Как написать код, безопасный для UTF-8?

Отличаются ли UTF-8, UTF-16 и UTF-32 количеством символов, которые они могут хранить?

Юникод в PDF

Чтение символов из файла в Python

Ответы 9

Другие вопросы по теме

Похожие вопросы