Я работаю с системой, которая выводит нестандартные файлы CSV. Строка 1 всегда содержит имя файла, за которым следует атрибут таблицы в строке 2 (который иногда включает запятую), заголовки таблицы в строке 3, а затем различное количество строк данных. После строк данных всегда есть две пустые строки, и шаблон повторяется (заголовки всегда одинаковы в файле). Вот небольшой пример:
Example Report
Geography:Boston, MA
Time,Product,Unit Sales
Week Ending 03-06-22,ITEM DESCRIPTION A,275
Week Ending 03-13-22,ITEM DESCRIPTION A,297
Week Ending 03-20-22,ITEM DESCRIPTION A,261
Example Report
Geography:New York, NY
Time,Product,Unit Sales
Week Ending 03-06-22,ITEM DESCRIPTION A,393
Week Ending 03-13-22,ITEM DESCRIPTION A,477
Week Ending 03-20-22,ITEM DESCRIPTION A,412
Example Report
Geography:Philadelphia, PA
Time,Product,Unit Sales
Week Ending 03-06-22,ITEM DESCRIPTION A,195
Week Ending 03-13-22,ITEM DESCRIPTION A,233
Week Ending 03-20-22,ITEM DESCRIPTION A,198
В конечном счете, я хочу отказаться от имени файла и дополнительных строк заголовка и вывести стандартный CSV с атрибутом в качестве первого столбца. Вот как должен выглядеть приведенный выше пример:
Geography,Time,Product,Unit Sales
"Boston, MA",Week Ending 03-06-22,ITEM DESCRIPTION A,275
"Boston, MA",Week Ending 03-13-22,ITEM DESCRIPTION A,297
"Boston, MA",Week Ending 03-20-22,ITEM DESCRIPTION A,261
"New York, NY",Week Ending 03-06-22,ITEM DESCRIPTION A,393
"New York, NY",Week Ending 03-13-22,ITEM DESCRIPTION A,477
"New York, NY",Week Ending 03-20-22,ITEM DESCRIPTION A,412
"Philadelphia, PA",Week Ending 03-06-22,ITEM DESCRIPTION A,195
"Philadelphia, PA",Week Ending 03-13-22,ITEM DESCRIPTION A,233
"Philadelphia, PA",Week Ending 03-20-22,ITEM DESCRIPTION A,198
Я привык манипулировать стандартными файлами CSV в python, но этот ставит меня в тупик из-за смешанных неструктурированных данных.
pandas.read_csv имеет параметр skip_blank_lines=True по умолчанию. Что касается других вещей, я буду обрабатывать их в pandas.
df1 = pd.read_csv('filename', skiprows=2, skipfooter=16)
df1[Geography']='Boston'
df2 = pd.read_csv('filename', skiprows=9, skipfooter=8)
df2[Geography']='Boston'
df3 = pd.read_csv('filename', skiprows=2, skipfooter=1) #adjust those, they might have errors
df3[Geography']='Boston'
df=pd.concat(df1,df2,df3)
Я знаю, что это сложно сделать с несколькими данными, но это лучшее решение, которое я могу придумать. Удачи в решении вашей проблемы!
рабочее решение, которое перебирает такой CSV:
def read_strange_csv(filename):
header_used = False
with open(filename) as f:
while True:
line_filename = next(f).rstrip()
line_attribute = next(f).rstrip()
geography = line_attribute.split(':')[1]
line_header = next(f).rstrip()
if not header_used:
yield f'Geography,{line_header}'
header_used = True
for line in f:
line = line.rstrip()
if not line:
break
yield f'"{geography}",{line}'
try:
next(f) # empty line
except StopIteration:
return
for row in read_strange_csv('example.csv'):
print(row)
он выводит строку ниже, которую вы можете сохранить непосредственно в файл, если вам нужно:
Geography,Time,Product,Unit Sales
"Boston, MA",Week Ending 03-06-22,ITEM DESCRIPTION A,275
"Boston, MA",Week Ending 03-13-22,ITEM DESCRIPTION A,297
"Boston, MA",Week Ending 03-20-22,ITEM DESCRIPTION A,261
"New York, NY",Week Ending 03-06-22,ITEM DESCRIPTION A,393
"New York, NY",Week Ending 03-13-22,ITEM DESCRIPTION A,477
"New York, NY",Week Ending 03-20-22,ITEM DESCRIPTION A,412
"Philadelphia, PA",Week Ending 03-06-22,ITEM DESCRIPTION A,195
"Philadelphia, PA",Week Ending 03-13-22,ITEM DESCRIPTION A,233
"Philadelphia, PA",Week Ending 03-20-22,ITEM DESCRIPTION A,198
в качестве альтернативы вы можете поместить весь блок в блок try-except, чтобы изящно остановить итерации в любом месте, где файл неожиданно заканчивается.