Как проанализировать текстовый файл .blk в словаре?

У меня есть читаемый файл блока (.blk) , который конвертируется в файл .txt (из War Thunder). Я хотел бы проанализировать содержимое, чтобы к нему было легко получить доступ в моем скрипте Python.

Вот фрагмент такого файла блока:

areas{
  spawn_zone{
    type:t = "Sphere"
    tm:m=[[9.70537, 0, 0] [0, 9.70537, 0] [0, 0, 9.70537] [2881.52, 75.8896, 182.321]]
    objLayer:i=0

    props{}
  }
}

Как мне его проанализировать, чтобы получить доступ к различным частям моего сценария? Цель состоит в том, чтобы иметь возможность ввести что-то вроде areas.spawn_zone.type и оно вернет "Sphere".

В блочном файле много предложений, но они идентифицируются по имени (areas{...}, units{...} и т. д.), поэтому это необходимо учитывать.

вам придется написать для него парсер или использовать тот, который уже существует. Что это вообще за формат?

— 15.06.2024 01:10

Поскольку он не похож на стандартный формат данных (это не JSON, YAML и т. д.), было бы важно точно знать, что должно быть возможно в этом формате. Знаете ли вы, можно ли вкладывать эти блоки дальше? Существуют ли другие типы, кроме :t, :m и :i? Было бы легче помочь, если бы вы просмотрели больше этих файлов и собрали все варианты, для которых вам нужно написать код.

— 15.06.2024 01:12

Насколько мне известно, этот формат уникален для игры War Thunder. Файлы используются игрой для чтения информации при загрузке пользовательских миссий и другого модифицированного контента. Он «читаем», чтобы стимулировать создание упомянутых миссий и модификацию, поэтому его можно легко конвертировать и редактировать. Недостатком является то, что это необычный формат.

— 15.06.2024 01:13

Вот некоторая документация, которая должна помочь собрать парсер: wiki.warthunder.com/Block_file_(.BLK) - однако она неполная, поскольку, похоже, в ней отсутствует формат :m (матрица?)

— 15.06.2024 01:14

@Grismar, для того, что сейчас является моей целью, все типы можно игнорировать, так как я все равно буду использовать только тип :t (текст). Фрагмент, который я опубликовал, - это всего лишь фрагмент. Файл, который у меня есть, содержит примерно 2500 строк, но имеет ту же структуру.

— 15.06.2024 01:16

Если вам нужен крутой проект, создайте парсер, используя что-то вроде: pyparsing-docs.readthedocs.io/en/latest/… для этого формата. Люди из сообщества War Thunder могут это оценить.

— 15.06.2024 04:32

python dictionary

15.06.2024 01:01

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Основываясь на доступной документации и приведенном вами примере, простой парсер Python для файла .blk из игры War Thunder может выглядеть так:

EXAMPLE = """
areas{
  spawn_zone{
    type:t = "Sphere"
    tm:m=[[9.7053, 0, 0] [0, 9.7053, 0] [0, 0, 9.7053] [2881.52, 75.8896, 182.321]]
    objLayer:i=0
    height:r=0.25
    line{ line:p4=115, +10000, 117, 0; move:b=no; thousandth:b=yes; }
  }
}
"""


def parse_blk(data: str, start: int = 0) -> (dict, int):
    from enum import Enum
    from itertools import islice
    from re import findall

    class States(Enum):
        ID_NEXT = 1
        ID = 2
        BLOCK_NEXT = 3
        TYPE_NEXT = 4
        TYPE = 5
        EQUALS_NEXT = 6
        VALUE_NEXT = 7
        VALUE = 8

    def unexpected():
        raise SyntaxError(f'Unexpected character #{i}: {ch}')

    def matrix(m: str) -> list | float:
        m = m.strip()

        if not m.startswith('[') or not m.endswith(']'):
            xs = m.split(',')
            if len(xs) > 1:
                return [matrix(v) for v in xs]
            try:
                v = float(m)
                return v
            except ValueError:
                raise SyntaxError(f'Invalid matrix format {s}')

        m = m[1:-1]
        return [matrix(v) for v in findall(r'\[([^]]+)]', m)]

    state = States.ID_NEXT
    s = ''
    _id = ''
    _type = ''
    result = {}
    enum_data = iter(enumerate(data))
    next(islice(enum_data, start, start), None)
    for i, ch in enum_data:
        match state:
            case States.ID_NEXT:
                if ch.isalpha() or ch == '_':
                    s = ch
                    state = States.ID
                elif ch.isspace():
                    pass
                elif ch == '}':
                    return result, i
                else:
                    unexpected()
            case States.ID:
                if ch == ':':
                    _id = s
                    state = States.TYPE_NEXT
                elif ch.isspace():
                    _id = s
                    state = States.BLOCK_NEXT
                elif ch.isalpha() or ch == '_':
                    s += ch
                elif ch == '{':
                    _id = s
                    result[_id], n = parse_blk(data, i + 1)
                    next(islice(enum_data, n, n), None)
                    state = States.ID_NEXT
                else:
                    unexpected()
            case States.BLOCK_NEXT:
                if ch == '{':
                    result[_id], n = parse_blk(data, i + 1)
                    next(islice(enum_data, n, n), None)
                    state = States.ID_NEXT
                elif ch.isspace():
                    pass
                else:
                    unexpected()
            case States.TYPE_NEXT:
                if ch.isalpha():
                    s = ch
                    state = States.TYPE
                elif ch.isspace():
                    pass
                else:
                    unexpected()
            case States.TYPE:
                if ch.isalnum():
                    s += ch
                elif ch == '=':
                    _type = s
                    if _type not in ['i', 'r', 't', 'b', 'm', 'p2', 'p3', 'p4']:
                        raise ValueError(f'Unknown type {_type}')
                    state = States.VALUE_NEXT
                elif ch.isspace():
                    _type = s
                    state = States.EQUALS_NEXT
                else:
                    unexpected()
            case States.EQUALS_NEXT:
                if ch == '=':
                    state = States.VALUE_NEXT
                elif ch.isspace():
                    pass
                else:
                    unexpected()
            case States.VALUE_NEXT:
                if ch.isalnum() or ch in '"[+-':
                    s = ch
                    state = States.VALUE
                elif ch.isspace():
                    pass
                else:
                    unexpected()
            case States.VALUE:
                if ch in [';', '\n']:
                    state = States.ID_NEXT
                    result[_id] = s
                    match _type:
                        case 'i':
                            result[_id] = int(s)
                        case 'r':
                            result[_id] = float(s)
                        case 't':
                            result[_id] = s
                        case 'b':
                            if s not in ['yes', 'true', 'no', 'false']:
                                raise ValueError(f'Unknown boolean value {s}')
                            result[_id] = s in ['yes', 'true']
                        case 'm':
                            result[_id] = matrix(s)
                        case 'p2' | 'p3' | 'p4':
                            result[_id] = tuple(float(v) for v in s.split(','))
                            if (r := len(result[_id])) != (e := int(_type[1])):
                                raise ValueError(
                                    f'Expected {e} values, got {r}')
                        case '_':
                            raise SyntaxError(f'Unknown type {_type}')
                elif ch.isalnum() or ch.isspace() or ch in '_"[].,+-':
                    s += ch
                elif ch == '}':
                    result[_id] = s
                    return result, i
                else:
                    unexpected()
            case _:
                raise SyntaxError(f'Unknown state {state}')
    return result, len(data)


# the function returns both the dictionary and the number of characters parsed
parsed, _ = parse_blk(EXAMPLE)
print(parsed)
print(parsed['areas']['spawn_zone']['type'])

Выход:

{'areas': {'spawn_zone': {'type': '"Sphere"', 'tm': [[9.7053, 0.0, 0.0], [0.0, 9.7053, 0.0], [0.0, 0.0, 9.7053], [2881.52, 75.8896, 182.321]], 'objLayer': 0, 'height': 0.25, 'line': {'line': (115.0, 10000.0, 117.0, 0.0), 'move': False, 'thousandth': True}}}}
"Sphere"

Обратите внимание, что я добавил в пример некоторые данные, чтобы показать другие типы, задокументированные для этого формата — я знаю, что они вам не нужны, но кто-то еще может захотеть прочитать файлы .blk из War Thunder с помощью Python.

Обратите внимание, что я назвал _id и _type с подчеркиванием, потому что использование id и type затенит ключевые слова, но я считаю, что это подходящие имена для использования здесь, поэтому я использовал версии с подчеркиванием. Вы можете назвать их key и t, если вам это не нравится.

И если вам интересно, LLM, такой как

Кажется, по большей части работает, но у меня проблемы с символом ". Можно ли удалить символы ", содержащие строку? например, удалите " в type:t = "Sphere".

— 16.06.2024 20:11

Было неясно, было ли значение type:t'"Sphere"' или 'Sphere', поэтому я решил упростить. Но, конечно, вы можете заменить result[_id] = s на result[_id] = s[1:-1] вместо case 't':. Дело в том, что могут быть и другие небольшие проблемы, подобные этой. Например, код предполагает, что символ новой строки или точка с запятой завершает значение — возможно, что они внутри текстового значения должны считаться частью текста, что потребует отдельного анализа текстовых значений. Также неясно, как будут экранироваться кавычки внутри текста. Как я уже отмечал в комментариях, для уверенности вам понадобится более полный пример.

— 17.06.2024 01:16

Я понял проблему. Я добавил больше вещей, чтобы учесть все странные варианты структуры, которые есть в этих файлах. Я могу создать репозиторий на GitHub с парсером, если вы хотите увидеть, что я изменил. Огромное спасибо за предоставленный вами «шаблон», это избавило меня от многих хлопот.

— 17.06.2024 12:08

Если вы не против поделиться, разместите код на GitHub и поделитесь ссылкой на репозиторий здесь, в комментариях, может быть полезно всем, кто ищет способ анализа .blk и находит это на SO.

— 17.06.2024 12:10

Репозиторий GitHub: github.com/isaacweihs/blk_parser

— 17.06.2024 12:22

15.06.2024 06:11