Для базовой проверки мне нужны диапазоны кодовых точек Unicode для большинства распространенных индийских шрифтов. Пожалуйста, также укажите, есть ли символы за пределами этих диапазонов, которые следует включать по отдельности.
Да. Меня также интересовали некоторые дополнительные специальные символы, которые часто являются частью индийского текста. Символы нулевой ширины являются одним из претендентов.
Диапазоны сценариев индийского языка следующие:
В дополнение к этому, часто используются следующие символы, которые не входят в эти диапазоны:
Также обратите внимание на все знаки препинания ASCII.
Спасибо за исчерпывающий список кодовых точек. В Unicode есть много новых дополнений к кодовым точкам деванагари за пределами BMP. Назван как Devanagari Extended. Будут ли они применимы также?
Может быть, также упомянуть Ведические расширения, но этот вопрос довольно сомнителен для переполнения стека.
Стандарт Unicode включает файлы данных со свойствами символов. Эти файлы данных вместе называются базой данных символов Unicode и включают два файла для свойств, связанных со сценарием: Скрипты.txt и ScriptExtensions.txt. В файле Scripts.txt для каждого персонажа указано, к какому сценарию он принадлежит. Для символов, используемых в сценариях (например, данда), в ScriptExtensions.txt перечислены несколько сценариев для данного символа. В этих файлах используются четырехбуквенные теги для сценариев, взятых из ИСО 15924.
Если вы хотите увидеть все символы, имеющие определенное свойство сценария (например, все символы деванагари), вы можете использовать утилиту Unicode UnicodeSet. Просто установите шаблон, чтобы указать, что вы хотите определенное значение для свойства скрипта. Например, [:sc=Deva:]
для деванагари, [:sc=Beng:]
для бангла и т. д.
Я предполагаю, что это что-то широко доступное через любую поисковую систему.