Как читать / сохранять Unicode со строками и потоками STL

Мне нужно изменить мою программу, чтобы она принимала Unicode, который может поступать из любой из кодировок UTF-8 и различных кодировок UTF-16 и UTF-32. Я мало что знаю о Unicode (хотя я читал статья и Страница Википедии Джоэла Спольски).

Прямо сейчас я использую std::istream и читаю свой входной char с помощью char, а затем сохраняю (при необходимости) в std::string. Я бы хотел

измените это (с минимальными усилиями) для поддержки вышеуказанных кодировок и
выяснить, как протестировать приведенные выше кодировки (я вроде как американец с белым хлебом и действительно не знаю, как даже сделать образец текстового файла в другой кодировке), и в идеале
сделайте это кроссплатформенным способом.

Кроме того, если возможно, я хотел бы максимально сэкономить место (поэтому, если нам не нужно больше байта / символа, мы его не используем). Насколько я понимаю, это означает сохранение в UTF-8, что нормально, но я не знаю стандартной строки, которая делает это (насколько я понимаю, wchar_t имеет размер и кодировку, определяемые реализацией).

c++ string unicode stl stream

24.12.2008 10:40

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

4 314

Ответы 2

UTF-8 экономит место, если вы в основном используете стандартные символы ASCII.

std :: string не имеет проблем с UTF-8, поскольку в нем нет 0 байтов. Вы можете указать std :: string, какова длина входных символов, если они имеют нулевые байты, как в UTF-32. std :: string не сможет сказать вам, сколько символов в вашей строке UTF-8, вам придется использовать внешнюю функцию.

Кроме того, существует широкая версия std :: string с использованием wchar_t, в отличие от char, я просто забыл имя.

Также есть фасеты в boost для преобразования между кодировками.

Вы можете использовать стандартную библиотеку с ускорением. Или вы можете использовать функции обработки строк из библиотеки C. Существуют также функции, предоставляемые средами программирования, такими как Qt и Tcl.

См. Например:

utf8 codecvt фасет

Расширенная версия std :: string - std :: wstring

— 24.12.2008 11:59

Спасибо! Он не появился после быстрого поиска в Интернете, и у меня не было доступа к моей стандартной библиотечной ссылке.

— 24.12.2008 12:14

24.12.2008 10:51

Взгляните на вопрос Переход с std :: string на std :: wstring для встроенных приложений?

As Pukku said: You might get some headache because of the fact that the C++ standard dictates that wide-streams are required to convert double-byte characters to single-byte when writing to a file, and how this conversion is done is implementation-dependent.

24.12.2008 12:03

Другие вопросы по теме

Удаление пробелов в переменных ActionScript 2

Какова цель выражения «новая строка (...)» в Java?

Проверить строку на пустоту, а потом на определенное значение в 1 строке?

Есть ли в .NET встроенная функция IsLowerCase ()?

Доступ к списку интернированных строк clr

Как я могу добавить строку в Java?

Соответствие началу слов в NSString

Как я могу игнорировать акценты при сравнении строк в Perl?

Нужна помощь - преобразование битового поля

Приведение типов в Python

Как читать / сохранять Unicode со строками и потоками STL

Ответы 2

Другие вопросы по теме

Похожие вопросы