У меня есть набор кодовых точек Unicode, хранящихся как целые числа, и я хотел бы закодировать их как UTF-8. Если я правильно понимаю, UTF-8 - это просто кодировка для целых чисел (тот факт, что он используется, в частности, для Unicode, не является фундаментальным для UTF-8), поэтому это должно быть просто вопросом кодирования целого числа в UTF-8 кодирование. Есть ли стандартная утилита для этого, а если нет, то есть ли простой способ сделать это вручную?
Есть простой способ. Если вы работаете в Windows, у вас могут возникнуть проблемы, если вы превзойдете символы UTF-16LE из-за ограничений платформы. В Linux вы должны быть в безопасности с полным юникодом.
>>> my_unicode_codepoints = [1234, 2345, 3456, 4576] # example codepoints
>>> [chr(i) for i in unicode_codepoints] # step 1: use python automagic for casting to wide enough chars
['Ӓ', 'ऩ', '\u0d80', 'ᇠ']
>>> "".join([chr(i) for i in unicode_codepoints]) # step 2: join to string
'Ӓऩ\u0d80ᇠ'
>>> "".join([chr(i) for i in unicode_codepoints]).encode("utf-8") # step 3: encode your string
b'\xd3\x92\xe0\xa4\xa9\xe0\xb6\x80\xe1\x87\xa0'
Последняя строка - это результат, который вы ищете.
@CaptainCaveman Вопрос достаточно четко определен, чтобы дать ответ