Использует ли С# UTF-8 или UTF-16 для строк?

Точнее, последняя версия С# (С# 12 (.NET 8.0)), использует ли она UTF-8 или UTF-16 для строк?

Я в замешательстве, потому что: https://learn.microsoft.com/en-us/dotnet/standard/base-types/character-encoding-introduction

Логически строка представляет собой последовательность 16-битных значений, каждое из которых является экземпляром структуры char.

И здесь: https://learn.microsoft.com/en-us/dotnet/core/compatibility/globalization/5.0/icu-globalization-api

.NET 5 и более поздние версии используют библиотеки международных компонентов для Юникода (ICU) для функций глобализации при работе в Windows 10 May 2019 Update или более поздней версии.

А что если запустить на Linux? Должен ли я предоставить библиотеку ICU? Или утверждение, что С# по-прежнему использует 16-битные значения, удаляет нули для всех латинских языков и отображает это, чем в ICU?

c# utf-8 utf-16

02.04.2024 20:06

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Кажется, это UTF16:

Сегодня для этого не существует эффективного синтаксиса, поскольку C# представляет все строки с использованием кодировки UTF16.

https://learn.microsoft.com/en-us/dotnet/csharp/language-reference/proposals/csharp-11.0/utf8-string-literals

02.04.2024 20:12

Ответ принят как подходящий

В C# строки хранятся внутри в кодировке UTF-16. Это означает, что каждый символ строки занимает 16 бит памяти. Строка всегда содержит Unicode (точнее, UTF-16).

Если «символ» не является BMP (> U+FFFF) и не использует суррогаты UTF-16, тогда он использует 32 бита (4 байта) памяти или один визуальный «символ» является графемой из нескольких кодовых точек.

— 02.04.2024 20:21

Да вы правы.

— 02.04.2024 20:27

@MarkTolonen Это все еще UTF-16. Каждый char на самом деле является кодовой точкой, а не символом.

— 02.04.2024 23:16

@Charlieface Я знаю, что такое кодовая точка. Вот почему «характер» в кавычках. Я исправляю предложение, в котором говорится: «Каждый символ в строке занимает 16 бит памяти». «Символ» 😊 (одна кодовая точка) занимает 4 байта (2 кодовые единицы UTF-16). «Символ» 👨‍👩‍👦‍👦 (7 кодовых точек) занимает 14 байтов (7 кодовых единиц UTF-16).

— 02.04.2024 23:30

К сожалению, исправление, "символ" 👨‍👩‍👦‍👦 (7 кодовых точек) занимает 22 байта (11 кодовых единиц UTF-16). 4 из этих кодовых точек не являются BMP.

— 03.04.2024 02:02

02.04.2024 20:19