Я изучаю файловую структуру FlatBuffers и хочу знать, как записываются строки. Из того, что я смог собрать, строка orc (например) записывается как количество букв с прямым порядком байтов (0x3 0x0 0x0 0x0), за которыми следуют фактические буквы, а затем что-то еще. Я пытаюсь понять, что это за нечто другое. Какие байты следуют за буквами? Я спрашиваю только о представлении этой конкретной строки в буфере/файле.





Согласно документации FlatBuffer:
«Строки представляют собой просто вектор байтов и всегда заканчиваются нулем. Векторы хранятся как непрерывные выровненные скалярные элементы с префиксом 32-битного счетчика элементов (не включая нулевое завершение). по смещению. Вектор может состоять из нескольких смещений, указывающих на одно и то же значение, если пользователь явно сериализует одно и то же смещение дважды».
Таким образом, 4 байта впереди — это 32-битное количество элементов, а 0x3 0x0 0x0 0x0 будет означать, что в строке 3 байта, исключая нулевое завершение. (FlatBuffer по умолчанию использует с прямым порядком байтов; см. ссылку выше.)
Нулевое завершение выполняется нулевым байтом. Все, что после 0, логически не является частью строки. Это может быть дополнение, добавленное для целей выравнивания, или неинициализированные вещи. Вы действительно должны прочитать спецификацию для себя. Это все, что я делаю.
Есть даже пример кодировки... который показывает заполнение в конце строки.
Спасибо, что указали на это. Из того, что вы сказали, строка Fred имеет нулевое значение, заканчивающееся «0», за которым следует 3x 0 в качестве дополнения. Как именно рассчитывается это заполнение. Это мой последний вопрос, и он позволит мне получить полное представление о представлении. Спасибо.
Фактические байты, используемые для заполнения, не имеют значения. Единственное, что имеет значение, это количество байтов заполнения. Вы определяете требование выравнивания для следующего элемента (в соответствии со спецификацией), а затем добавляете достаточное количество байтов, чтобы выполнить требование. Но следует отметить, что это не формальная спецификация. На самом деле это «внутренняя документация» ... и в некоторых отношениях она не указана. Поэтому, чтобы точно понять, как работает кодирование, вам нужно прочитать исходный код.
Взгляните на аннотированный двоичный файл, который показывает аннотации строки и байтов: github.com/google/flatbuffers/blob/master/tests/…
Спасибо за ответ. Я понимаю часть, касающуюся размера + символов. Что мне нужно знать, так это байт [ы] после обоих символов размера +. Вы сказали, что null завершен. Читая руководство, я увидел
0сразу послеorc, а затем [неиспользованное место]. Является ли0нулевым окончанием? На строкеGoblinя увидел два0после символов. Я пытаюсь понять 0 и неиспользуемое пространство. Я хочу подтвердить, является ли неиспользуемое пространство частью строкового представления или нет, а также как оно рассчитывается.