Диапазоны символов индийского языка в Юникоде

Для базовой проверки мне нужны диапазоны кодовых точек Unicode для большинства распространенных индийских шрифтов. Пожалуйста, также укажите, есть ли символы за пределами этих диапазонов, которые следует включать по отдельности.

Я предполагаю, что это что-то широко доступное через любую поисковую систему.

Stephen Newell 21.03.2022 16:56

Да. Меня также интересовали некоторые дополнительные специальные символы, которые часто являются частью индийского текста. Символы нулевой ширины являются одним из претендентов.

Akshat Joshi 21.03.2022 17:01
Зод: сила проверки и преобразования данных
Зод: сила проверки и преобразования данных
Сегодня я хочу познакомить вас с библиотекой Zod и раскрыть некоторые ее особенности, например, возможности валидации и трансформации данных, а также...
Валидация полей ввода для базовой формы React
Валидация полей ввода для базовой формы React
В одном из моих проектов MERN Stack есть форма с именем, фамилией, контактным номером, адресом, электронной почтой, датой рождения, номером NIC, весом...
Пользовательские правила валидации в Laravel
Пользовательские правила валидации в Laravel
Если вы хотите создать свое собственное правило валидации, Laravel предоставляет возможность сделать это. Создайте правило с помощью следующей...
1
2
33
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Диапазоны сценариев индийского языка следующие:

  • Деванагари: от U+0900 до U+097F
  • Бенгальский: от U+0980 до U+09FF
  • Гурмукхи: от U+0A00 до U+0A7F
  • Гуджарати: от U+0A80 до U+0AFF
  • Одиа: от U+0B00 до U+0B7F
  • Тамильский: от U+0B80 до U+0BFF
  • Телугу: от U+0C00 до U+0C7F
  • Каннада: от U+0C80 до U+0CFF
  • Малаялам: от U+0D00 до U+0D7F

В дополнение к этому, часто используются следующие символы, которые не входят в эти диапазоны:

  • Соединитель нулевой ширины: U+200C
  • Нулевая ширина без соединения: U+200D
  • Знак индийской рупии: U+20B9

Также обратите внимание на все знаки препинания ASCII.

Спасибо за исчерпывающий список кодовых точек. В Unicode есть много новых дополнений к кодовым точкам деванагари за пределами BMP. Назван как Devanagari Extended. Будут ли они применимы также?

Akshat Joshi 21.03.2022 17:08

Может быть, также упомянуть Ведические расширения, но этот вопрос довольно сомнителен для переполнения стека.

tripleee 21.03.2022 17:08

Стандарт Unicode включает файлы данных со свойствами символов. Эти файлы данных вместе называются базой данных символов Unicode и включают два файла для свойств, связанных со сценарием: Скрипты.txt и ScriptExtensions.txt. В файле Scripts.txt для каждого персонажа указано, к какому сценарию он принадлежит. Для символов, используемых в сценариях (например, данда), в ScriptExtensions.txt перечислены несколько сценариев для данного символа. В этих файлах используются четырехбуквенные теги для сценариев, взятых из ИСО 15924.

Если вы хотите увидеть все символы, имеющие определенное свойство сценария (например, все символы деванагари), вы можете использовать утилиту Unicode UnicodeSet. Просто установите шаблон, чтобы указать, что вы хотите определенное значение для свойства скрипта. Например, [:sc=Deva:] для деванагари, [:sc=Beng:] для бангла и т. д.

Другие вопросы по теме