У меня есть такая структура папок:
exp_name_seed_$INT/$STR_1
exp_name_seed_$INT/$STR_2
exp_name_seed_$INT/$STR_3
exp_name_seed_$INT/$STR_4
exp_name_seed_$INT/$STR_5
exp_name1_seed_$INT/$STR_1
exp_name1_seed_$INT/$STR_2
exp_name1_seed_$INT/$STR_3
exp_name1_seed_$INT/$STR_4
exp_name1_seed_$INT/$STR_5
Я хотел бы сгруппировать это в структурированных данных (например, в словаре) следующим образом:
-exp_name
-- exp_name_seed_$INT/$STR_1
-- exp_name_seed_$INT/$STR_2
-- exp_name_seed_$INT/$STR_3
-- exp_name_seed_$INT/$STR_4
-- exp_name_seed_$INT/$STR_5
-exp_name1
-- exp_name1_seed_$INT/$STR_1
-- exp_name1_seed_$INT/$STR_2
-- exp_name1_seed_$INT/$STR_3
-- exp_name1_seed_$INT/$STR_4
-- exp_name1_seed_$INT/$STR_5
Учтите, что на данный момент exp_name имеет переменный размер, но окончание имеет одинаковую структуру _seed_$INT/$STR_1
Есть ли какой-нибудь эффективный способ в python для достижения этой функциональности?






Вот один из способов сделать это, т.е. создать словарь для хранения ваших данных. Прокрутите список ввода, возьмите нужные подстроки и создайте словарные записи.
ls=["exp_name_seed_$INT/$STR_1",
"exp_name_seed_$INT/$STR_2",
"exp_name_seed_$INT/$STR_3",
"exp_name_seed_$INT/$STR_4",
"exp_name_seed_$INT/$STR_5",
"exp_name1_seed_$INT/$STR_1",
"exp_name1_seed_$INT/$STR_2",
"exp_name1_seed_$INT/$STR_3",
"exp_name1_seed_$INT/$STR_4",
"exp_name1_seed_$INT/$STR_5"]
postfix_len=len("seed_$INT/$STR_N") # assume length is fixed
result_dict = {}
for item in ls:
body_len=len(item)-postfix_len # this length will vary
body=item[:body_len-1] # get for example "exp_name"
postfix=item[body_len+5:len(item)] # get for example "$INT/$STR_3"
if result_dict.get(body):
result_dict[body].append(postfix) #if entry exists, add to list
else:
result_dict[body]=[postfix] # if entry doesn't exist yet, create list
print(result_dict)
Мы не можем предположить, что постфикс имеет одинаковую длину :( Потому что $INT и $STR_N могут иметь разные размеры из-за того, что количество цифр целых чисел может быть больше 9.
Вместо len(item)-postfix_len используйте find, чтобы получить позицию подстроки _seed_ - это ваш новый body_len. ;)
Достаточно справедливо, но ваш вопрос, похоже, предполагает, что длина постфикса фиксирована.
Конечно, такие вещи в python довольно просты.
Читайте о мощных groupby и setdefault
from itertools import groupby
ls=["exp_name_seed_$INT/$STR_1",
"exp_name_seed_$INT/$STR_2",
"exp_name_seed_$INT/$STR_3",
"exp_name_seed_$INT/$STR_4",
"exp_name_seed_$INT/$STR_5",
"exp_name1_seed_$INT/$STR_1",
"exp_name1_seed_$INT/$STR_2",
"exp_name1_seed_$INT/$STR_3",
"exp_name1_seed_$INT/$STR_4",
"exp_name1_seed_$INT/$STR_5"]
result = {}
for key, val in groupby(ls, lambda s: s.split('_seed_', 1)[0]):
result.setdefault(key, []).extend(val)
print(result)
испускает
{'exp_name': ['exp_name_seed_$INT/$STR_1',
'exp_name_seed_$INT/$STR_2',
'exp_name_seed_$INT/$STR_3',
'exp_name_seed_$INT/$STR_4',
'exp_name_seed_$INT/$STR_5'],
'exp_name1': ['exp_name1_seed_$INT/$STR_1',
'exp_name1_seed_$INT/$STR_2',
'exp_name1_seed_$INT/$STR_3',
'exp_name1_seed_$INT/$STR_4',
'exp_name1_seed_$INT/$STR_5']}
это осуществимо ... и показать свои усилия