У меня есть читаемый файл блока (.blk) , который конвертируется в файл .txt (из War Thunder). Я хотел бы проанализировать содержимое, чтобы к нему было легко получить доступ в моем скрипте Python.
Вот фрагмент такого файла блока:
areas{
spawn_zone{
type:t = "Sphere"
tm:m=[[9.70537, 0, 0] [0, 9.70537, 0] [0, 0, 9.70537] [2881.52, 75.8896, 182.321]]
objLayer:i=0
props{}
}
}
Как мне его проанализировать, чтобы получить доступ к различным частям моего сценария? Цель состоит в том, чтобы иметь возможность ввести что-то вроде areas.spawn_zone.type и оно вернет "Sphere".
В блочном файле много предложений, но они идентифицируются по имени (areas{...}, units{...} и т. д.), поэтому это необходимо учитывать.
Поскольку он не похож на стандартный формат данных (это не JSON, YAML и т. д.), было бы важно точно знать, что должно быть возможно в этом формате. Знаете ли вы, можно ли вкладывать эти блоки дальше? Существуют ли другие типы, кроме :t, :m и :i? Было бы легче помочь, если бы вы просмотрели больше этих файлов и собрали все варианты, для которых вам нужно написать код.
Насколько мне известно, этот формат уникален для игры War Thunder. Файлы используются игрой для чтения информации при загрузке пользовательских миссий и другого модифицированного контента. Он «читаем», чтобы стимулировать создание упомянутых миссий и модификацию, поэтому его можно легко конвертировать и редактировать. Недостатком является то, что это необычный формат.
Вот некоторая документация, которая должна помочь собрать парсер: wiki.warthunder.com/Block_file_(.BLK) - однако она неполная, поскольку, похоже, в ней отсутствует формат :m (матрица?)
@Grismar, для того, что сейчас является моей целью, все типы можно игнорировать, так как я все равно буду использовать только тип :t (текст). Фрагмент, который я опубликовал, - это всего лишь фрагмент. Файл, который у меня есть, содержит примерно 2500 строк, но имеет ту же структуру.
Если вам нужен крутой проект, создайте парсер, используя что-то вроде: pyparsing-docs.readthedocs.io/en/latest/… для этого формата. Люди из сообщества War Thunder могут это оценить.






Основываясь на доступной документации и приведенном вами примере, простой парсер Python для файла .blk из игры War Thunder может выглядеть так:
EXAMPLE = """
areas{
spawn_zone{
type:t = "Sphere"
tm:m=[[9.7053, 0, 0] [0, 9.7053, 0] [0, 0, 9.7053] [2881.52, 75.8896, 182.321]]
objLayer:i=0
height:r=0.25
line{ line:p4=115, +10000, 117, 0; move:b=no; thousandth:b=yes; }
}
}
"""
def parse_blk(data: str, start: int = 0) -> (dict, int):
from enum import Enum
from itertools import islice
from re import findall
class States(Enum):
ID_NEXT = 1
ID = 2
BLOCK_NEXT = 3
TYPE_NEXT = 4
TYPE = 5
EQUALS_NEXT = 6
VALUE_NEXT = 7
VALUE = 8
def unexpected():
raise SyntaxError(f'Unexpected character #{i}: {ch}')
def matrix(m: str) -> list | float:
m = m.strip()
if not m.startswith('[') or not m.endswith(']'):
xs = m.split(',')
if len(xs) > 1:
return [matrix(v) for v in xs]
try:
v = float(m)
return v
except ValueError:
raise SyntaxError(f'Invalid matrix format {s}')
m = m[1:-1]
return [matrix(v) for v in findall(r'\[([^]]+)]', m)]
state = States.ID_NEXT
s = ''
_id = ''
_type = ''
result = {}
enum_data = iter(enumerate(data))
next(islice(enum_data, start, start), None)
for i, ch in enum_data:
match state:
case States.ID_NEXT:
if ch.isalpha() or ch == '_':
s = ch
state = States.ID
elif ch.isspace():
pass
elif ch == '}':
return result, i
else:
unexpected()
case States.ID:
if ch == ':':
_id = s
state = States.TYPE_NEXT
elif ch.isspace():
_id = s
state = States.BLOCK_NEXT
elif ch.isalpha() or ch == '_':
s += ch
elif ch == '{':
_id = s
result[_id], n = parse_blk(data, i + 1)
next(islice(enum_data, n, n), None)
state = States.ID_NEXT
else:
unexpected()
case States.BLOCK_NEXT:
if ch == '{':
result[_id], n = parse_blk(data, i + 1)
next(islice(enum_data, n, n), None)
state = States.ID_NEXT
elif ch.isspace():
pass
else:
unexpected()
case States.TYPE_NEXT:
if ch.isalpha():
s = ch
state = States.TYPE
elif ch.isspace():
pass
else:
unexpected()
case States.TYPE:
if ch.isalnum():
s += ch
elif ch == '=':
_type = s
if _type not in ['i', 'r', 't', 'b', 'm', 'p2', 'p3', 'p4']:
raise ValueError(f'Unknown type {_type}')
state = States.VALUE_NEXT
elif ch.isspace():
_type = s
state = States.EQUALS_NEXT
else:
unexpected()
case States.EQUALS_NEXT:
if ch == '=':
state = States.VALUE_NEXT
elif ch.isspace():
pass
else:
unexpected()
case States.VALUE_NEXT:
if ch.isalnum() or ch in '"[+-':
s = ch
state = States.VALUE
elif ch.isspace():
pass
else:
unexpected()
case States.VALUE:
if ch in [';', '\n']:
state = States.ID_NEXT
result[_id] = s
match _type:
case 'i':
result[_id] = int(s)
case 'r':
result[_id] = float(s)
case 't':
result[_id] = s
case 'b':
if s not in ['yes', 'true', 'no', 'false']:
raise ValueError(f'Unknown boolean value {s}')
result[_id] = s in ['yes', 'true']
case 'm':
result[_id] = matrix(s)
case 'p2' | 'p3' | 'p4':
result[_id] = tuple(float(v) for v in s.split(','))
if (r := len(result[_id])) != (e := int(_type[1])):
raise ValueError(
f'Expected {e} values, got {r}')
case '_':
raise SyntaxError(f'Unknown type {_type}')
elif ch.isalnum() or ch.isspace() or ch in '_"[].,+-':
s += ch
elif ch == '}':
result[_id] = s
return result, i
else:
unexpected()
case _:
raise SyntaxError(f'Unknown state {state}')
return result, len(data)
# the function returns both the dictionary and the number of characters parsed
parsed, _ = parse_blk(EXAMPLE)
print(parsed)
print(parsed['areas']['spawn_zone']['type'])
Выход:
{'areas': {'spawn_zone': {'type': '"Sphere"', 'tm': [[9.7053, 0.0, 0.0], [0.0, 9.7053, 0.0], [0.0, 0.0, 9.7053], [2881.52, 75.8896, 182.321]], 'objLayer': 0, 'height': 0.25, 'line': {'line': (115.0, 10000.0, 117.0, 0.0), 'move': False, 'thousandth': True}}}}
"Sphere"
Обратите внимание, что я добавил в пример некоторые данные, чтобы показать другие типы, задокументированные для этого формата — я знаю, что они вам не нужны, но кто-то еще может захотеть прочитать файлы .blk из War Thunder с помощью Python.
Обратите внимание, что я назвал _id и _type с подчеркиванием, потому что использование id и type затенит ключевые слова, но я считаю, что это подходящие имена для использования здесь, поэтому я использовал версии с подчеркиванием. Вы можете назвать их key и t, если вам это не нравится.
И если вам интересно, LLM, такой как
Кажется, по большей части работает, но у меня проблемы с символом ". Можно ли удалить символы ", содержащие строку? например, удалите " в type:t = "Sphere".
Было неясно, было ли значение type:t'"Sphere"' или 'Sphere', поэтому я решил упростить. Но, конечно, вы можете заменить result[_id] = s на result[_id] = s[1:-1] вместо case 't':. Дело в том, что могут быть и другие небольшие проблемы, подобные этой. Например, код предполагает, что символ новой строки или точка с запятой завершает значение — возможно, что они внутри текстового значения должны считаться частью текста, что потребует отдельного анализа текстовых значений. Также неясно, как будут экранироваться кавычки внутри текста. Как я уже отмечал в комментариях, для уверенности вам понадобится более полный пример.
Я понял проблему. Я добавил больше вещей, чтобы учесть все странные варианты структуры, которые есть в этих файлах. Я могу создать репозиторий на GitHub с парсером, если вы хотите увидеть, что я изменил. Огромное спасибо за предоставленный вами «шаблон», это избавило меня от многих хлопот.
Если вы не против поделиться, разместите код на GitHub и поделитесь ссылкой на репозиторий здесь, в комментариях, может быть полезно всем, кто ищет способ анализа .blk и находит это на SO.
Репозиторий GitHub: github.com/isaacweihs/blk_parser
вам придется написать для него парсер или использовать тот, который уже существует. Что это вообще за формат?