О скрипте на индийском языке, который теряет символы при копировании / вставке в браузеры
Мне нужно знать о типах символов и их преобразовании в различные поддерживаемые форматы. Мой вопрос - У меня есть текст, который набирается с помощью программного обеспечения Anu Script с Apple Keyboard. Текст, набранный с помощью Anu, также нельзя использовать в качестве ввода в браузерах любого типа или в веб-WhatsApp.
Кто-нибудь может решить это
Текст скопирован и вставлен отображается следующим образом: -
Реальный текст показан на снимке экрана ниже:
На этом изображении показан один язык Индии, набранный с помощью программного обеспечения Anu Script.





Коды символов, которые были скопированы и вставлены в вопрос, являются кодовыми точками Unicode в области частного использования (PUA) Unicode BMP (Basic Multilingual Plane). Отличительные моменты:
U+F020,
U+F026,
U+F02B,
U+F03C,
U+F054,
U+F058,
U+F05C,
U+F06AU+F073,
U+F075,
U+F077,
U+F079,
U+F080,
U+F083,
U+F087,
U+F088U+F08A,
U+F090,
U+F091,
U+F09F,
U+F0B2,
U+F0BC,
U+F0BF,
U+F0C2U+F0D2,
U+F0D4,
U+F0E1,
U+F0E6,
U+F0E7,
U+F0EC,
U+F0FBЕсли вы перейдете на страницу Графики Юникода и введете «F020» в качестве кода, вы получите UE000.pdf для загрузки, в котором говорится:
Private Use Area
Range: E000-F8FF
The Private Use Area does not contain any character assignments, consequently no character code charts or names lists are provided for this area.
Это означает, что программное обеспечение сценария Anu использует точки Unicode, которые не имеют международного согласованного значения - PUA BMP, по определению, предназначена для `` частного использования '', и стороны, обменивающиеся данными с помощью PUA, должны согласовать, что означают точки кода и как их отобразить. Они работают только с программным обеспечением, которое понимает соглашения. Вы не можете использовать эти кодовые точки, кроме как с программным обеспечением, которое понимает, что делает Anu Script Software.
Браузеры будут понимать эти кодовые точки только в том случае, если им известно, где находится соответствующий шрифт, который входит в сложные детали и, вероятно, зависит от платформы. (Понятия не имею, с чего начать!)
Стандартный диапазон Unicode для телугу - U + 0C00..U + 0C7F.
Telugu
Range: 0C00–0C7F
Лучше всего, вероятно, проанализировать сходства и различия между кодовыми точками, используемыми Anu Script Software, и стандартным диапазоном Unicode для телугу, а затем использовать стандартные коды Unicode. Возможно, вам потребуется уметь сочетать акценты и различные другие аспекты телугу.
Я вообще не знаю телугу, поэтому дальнейшее может быть неточным, но я думаю, что это более или менее объясняет то, что находится в выводе Anu Script Software:
UTF-8 bytes PUA Telugu Glyph
0xEF 0x82 0x87 = U+F087 ==> U+0C08 ఈ
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x82 0x80 = U+F080 ==> U+0C06 ఆ
0xEF 0x81 0x9C = U+F05C ==> U+0C32 ల
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F య (three code points for one character)
0xEF 0x81 0x94 = U+F054 /
0xEF 0x80 0xAB = U+F02B ==> U+0C66 ౦
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x83 0x82 = U+F0C2
0xEF 0x81 0xB3 = U+F073
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA6 = U+F026
0xEF 0x82 0x83 = U+F083
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0x98 = U+F058
0xEF 0x83 0xA6 = U+F0E6
0xEF 0x81 0xB5 = U+F075
0xEF 0x82 0xB2 = U+F0B2
0xEF 0x83 0x92 = U+F0D2
0xEF 0x81 0x9C = U+F05C
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x83 0xA7 = U+F0E7 ==> U+0C46 U+0C66 ౦ె (Note 1)
0xEF 0x82 0xBF = U+F0BF
0xEF 0x83 0xAC = U+F0EC
0xEF 0x83 0x94 = U+F0D4
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x83 0xA7 = U+F0E7
0xEF 0x81 0xB7 = U+F077
0xEF 0x82 0x9F = U+F09F
0xEF 0x82 0xBC = U+F0BC
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x83 0xBB = U+F0FB
0xEF 0x81 0xB9 = U+F079
0xEF 0x82 0x90 = U+F090
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020 space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x82 0x88 = U+F088
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F య
0xEF 0x81 0x94 = U+F054 /
Примечание 1: TELUGU VOWEL SIGN E U + 0C46 должен сочетаться с TELUGU DIGIT ZERO U + 0C66 - если я правильно определил символы, что кажется маловероятным. Я перестану пытаться здесь; Я распознаю некоторые формы, сопоставляя то, что вы показываете на изображении, со страницей диаграммы Unicode, но я не уверен в сопоставлении с кодовыми точками PUA.
У вас должна быть возможность получить соответствующую информацию от людей, которые предоставили программное обеспечение Anu Script.