Чем GB18030 отличается от Unicode?

Чем китайский кодовый набор GB18030 отличается от Unicode?

Какие специальные методы требуются для работы с GB18030?

Существуют ли какие-либо библиотеки (с открытым исходным кодом) для работы с GB18030?

вы путаете наборы символов (например, Unicode) со схемами кодировки символов (например, GB18030, ISO Latin-1..15, UTF- [7,8,16,32]).

Sebastian 13.06.2014 15:16
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
13
1
11 778
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Согласно Статья в Википедии о GB18030, «GB18030 можно рассматривать как формат преобразования Unicode (т. Е. Кодирование всех кодовых точек Unicode), который поддерживает совместимость с устаревшим набором символов». Таким образом, все символы Unicode могут быть закодированы в GB18030, но они будут закодированы с помощью других байтовых последовательностей, чем те, которые были бы созданы с помощью UTF-8 или UTF-16. Обработка кодировки GB18030 не требует каких-либо дополнительных специальных методов, чем требуется для любой другой кодировки, отличной от Unicode.

Проект ICU - это библиотека с открытым исходным кодом (для C или Java), которая полностью поддерживает множество различных кодировок, включая GB18030. Информацию о преобразовании между разными кодировками с помощью ICU можно найти в здесь.

Спасибо за информацию. Я умеренно осведомлен об отделении интенсивной терапии; Однако я не знал, что он работал и с GB18030.

Jonathan Leffler 23.10.2008 07:36

Википедия ошибается, говоря, что «GB18030 можно рассматривать как формат преобразования Unicode». Кто бы ни писал, не понимает смысла или "формата трансформации". Можно было бы считать это допустимым, если бы существовал алгоритмический способ сопоставления между GB18030 и Unicode без таблицы сопоставления. Если задействованы таблицы сопоставления, то это всего лишь две независимые кодировки, которые могут охватывать один и тот же набор символов. Так же, как KOI8-R не является «форматом преобразования» iso-8859-5, а Shift-JIS не является «форматом преобразования» EUC-JP

Mihai Nita 22.03.2012 13:10

@MihaiNita: Согласно глоссарию Unicode, формат трансформации - это «отображение кодированной последовательности символов на уникальную последовательность кодовых единиц (обычно байтов)», а кодированная последовательность символов - это «упорядоченная последовательность из одной или нескольких кодовых точек». Пока существует сопоставление каждой кодовой точки Unicode с серией байтов, кажется, что это можно рассматривать как «формат преобразования Unicode».

Bradley Grainger 22.03.2012 17:11

Юникод - это открытый стандарт, то есть количество символов в нем со временем увеличивается (или изменяется). Поэтому я считаю, что в определенный момент снимки Unicode и GB18030 используют один и тот же набор символов. Но в долгосрочной перспективе они могут разойтись.

Kun Wu 08.09.2015 13:55

What special techniques are required for handling GB18030?

Самое главное, что нужно знать, это то, что, в отличие от UTF-8, GB18030 позволяет байтам ASCII встречаться в кодировке многобайтовых символов. (Например, 'ß' кодируется как байты 81 30 89 38, которые содержат кодировку ASCII '0' и '8'.) Это означает, что вы не можете использовать простую байтовую функцию find / index.

Другие вопросы по теме