Чем GB18030 отличается от Unicode?

Чем китайский кодовый набор GB18030 отличается от Unicode?

Какие специальные методы требуются для работы с GB18030?

Существуют ли какие-либо библиотеки (с открытым исходным кодом) для работы с GB18030?

вы путаете наборы символов (например, Unicode) со схемами кодировки символов (например, GB18030, ISO Latin-1..15, UTF- [7,8,16,32]).

— 13.06.2014 15:16

unicode

22.10.2008 00:24

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

11 778

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Согласно Статья в Википедии о GB18030, «GB18030 можно рассматривать как формат преобразования Unicode (т. Е. Кодирование всех кодовых точек Unicode), который поддерживает совместимость с устаревшим набором символов». Таким образом, все символы Unicode могут быть закодированы в GB18030, но они будут закодированы с помощью других байтовых последовательностей, чем те, которые были бы созданы с помощью UTF-8 или UTF-16. Обработка кодировки GB18030 не требует каких-либо дополнительных специальных методов, чем требуется для любой другой кодировки, отличной от Unicode.

Проект ICU - это библиотека с открытым исходным кодом (для C или Java), которая полностью поддерживает множество различных кодировок, включая GB18030. Информацию о преобразовании между разными кодировками с помощью ICU можно найти в здесь.

Спасибо за информацию. Я умеренно осведомлен об отделении интенсивной терапии; Однако я не знал, что он работал и с GB18030.

— 23.10.2008 07:36

Википедия ошибается, говоря, что «GB18030 можно рассматривать как формат преобразования Unicode». Кто бы ни писал, не понимает смысла или "формата трансформации". Можно было бы считать это допустимым, если бы существовал алгоритмический способ сопоставления между GB18030 и Unicode без таблицы сопоставления. Если задействованы таблицы сопоставления, то это всего лишь две независимые кодировки, которые могут охватывать один и тот же набор символов. Так же, как KOI8-R не является «форматом преобразования» iso-8859-5, а Shift-JIS не является «форматом преобразования» EUC-JP

— 22.03.2012 13:10

@MihaiNita: Согласно глоссарию Unicode, формат трансформации - это «отображение кодированной последовательности символов на уникальную последовательность кодовых единиц (обычно байтов)», а кодированная последовательность символов - это «упорядоченная последовательность из одной или нескольких кодовых точек». Пока существует сопоставление каждой кодовой точки Unicode с серией байтов, кажется, что это можно рассматривать как «формат преобразования Unicode».

— 22.03.2012 17:11

Юникод - это открытый стандарт, то есть количество символов в нем со временем увеличивается (или изменяется). Поэтому я считаю, что в определенный момент снимки Unicode и GB18030 используют один и тот же набор символов. Но в долгосрочной перспективе они могут разойтись.

— 08.09.2015 13:55

22.10.2008 02:33

What special techniques are required for handling GB18030?

Самое главное, что нужно знать, это то, что, в отличие от UTF-8, GB18030 позволяет байтам ASCII встречаться в кодировке многобайтовых символов. (Например, 'ß' кодируется как байты 81 30 89 38, которые содержат кодировку ASCII '0' и '8'.) Это означает, что вы не можете использовать простую байтовую функцию find / index.

12.07.2010 00:49

Другие вопросы по теме

Как использовать символы Юникода в Pod и perldoc?

Запись utf16 в файл в двоичном режиме

Перенаправление ConsoleOutput, содержащего строки псевдолока (unicode) в C#

Как определить, написан ли текст кириллицей?

CMapStringToOb :: Lookup не работает с японскими символами

Как ввести 4-байтовые символы UTF-8?

Макрон в редакторе VBA

Как мне сопоставить только полностью составленные символы в строке Unicode в Perl?

Как использовать специальные символы в Java / Eclipse

Как установить маркер порядка байтов для файлов Unicode?

Чем GB18030 отличается от Unicode?

Ответы 2

Другие вопросы по теме

Похожие вопросы