В настоящее время я использую последнюю версию Matlab на Mac с 16 ГБ ОЗУ.
Я попытался разбить действительно большой файл куба (100 ГБ) на более мелкие файлы куба, содержащие всего 210151 строку в каждом файле, используя этот код:
%% Splitting
% opening the result.cube file
fid = fopen(cube) ;
if fid == -1
error('File could not be opened.');
end
m = 1 ;
while ~feof(fid)
% skip the alpha and beta density
fseek(fid,16596786,0) ;
% copy the spin density
text = textscan(fid,'%s',210150,'Delimiter','\n','Whitespace','') ;
% Prints the cube snap shot to the subdirectory
name = string(step_nr(m))+'.cube' ;
full_path = fullfile(name1,name) ;
fid_new = fopen(full_path,"w") ;
fprintf(fid_new,'%s\n', text{1}{:}) ;
fclose(fid_new) ;
m = m+1 ;
end
fclose(fid) ;
save("steps","step_nr")
end
Моя проблема: видимо, textscan не подходит для файлов такого типа. Я также попробовал построчное копирование с помощью fgetl, что, с другой стороны, занимает много времени для файла размером 100 ГБ. Есть ли более эффективный способ разделить файл?
Я читал о fscanf и попробовал это:
tic;
fid = fopen('result.cube');
fgetl(fid) ; fgetl(fid) ;
f = fscanf(fid, '%d %f %f %f', [4 4]) ;
s = fscanf(fid, '%d %f %f %f %f', [5 192]) ;
n = fscanf(fid, '%f %f %f %f %f %f', [6 209953]) ;
fid_new = fopen("new",'w') ;
fprintf(fid_new, '%d %.6f %.6f %.6f\n', f) ;
fprintf(fid_new, '%d %.6f %.6f %.6f %.6f\n', s) ;
fprintf(fid_new, '%f %f %f %f %f\n', n) ;
fclose(fid) ;
t=toc
Но моя проблема в том, что s не выравнивается в отдельном файле, как в большом файле. n указывается в десятичном формате, а не, например, E-02. Я также пытался скопировать его построчно, но на это ушли годы. Есть предложения, как это улучшить? Я хочу, чтобы это выглядело так:





Вам нужно сделать это в Matlab? Можете ли вы просто использовать инструмент командной строки split?
https://man7.org/linux/man-pages/man1/split.1.html
Это должно выполнить эту работу:
split input_file.txt --lines=210151
Если вы дополнительно хотите пропустить (отбросить) первые 16596786 байт входного файла:
tail -c +16596786 input_file.txt | split --lines=210151
Чтобы сначала разделить входной файл, а затем удалить первые 16596786 байт из каждого фрагмента:
split --lines=210151 input_file output_
for i in output_*; do tail -c +16596786 ${i} > ${i}.chopped; done
Вам не нужна петля. Программа split просто берет входной файл и разбивает его на каждые n строки или каждые n байты, в зависимости от того, как вы его вызываете. Это создаст столько «кусков» (то есть выходных файлов), сколько необходимо. В примере, который я привел, он разбивает каждые 210151 строки. Как это работает внутри, полностью зависит от реализации split. Вам не нужно заботиться.
Спасибо! Но насколько я понимаю он отрубает только первые 16596786 байт, так? Я бы также хотел каждый раз измельчать первые байты перед сбором нужных мне строк.
Да, в приведенном выше примере мы пропускаем (отбрасываем) первые 16596786 байт. Затем оставшиеся данные разбиваются на n отдельные фрагменты (файлы), так что каждый фрагмент содержит (максимум) 210151 строку. Последний фрагмент на самом деле может быть короче, если общее количество строк не кратно 210151. Также можно было бы сначала разделить файл на несколько фрагментов (либо по максимальному количеству строк в фрагменте, либо по максимальному количеству байт на фрагмент), а затем отбросить первые x байты (или строки) каждого фрагмента.
Ах да, второй подход на самом деле будет лучше, потому что я хочу отбросить первые несколько байтов в каждом фрагменте.
В качестве альтернативного ответа вы можете использовать следующий скрипт Python:
import os
with open('input.txt', 'rb') as input:
size = os.fstat(input.fileno()).st_size
chunk = 0
while input.tell() < size:
# skip the next 16596786 bytes
input.seek(16596786, 1)
with open(f'output-{chunk:02X}.txt', 'wb') as output:
# copy up to 210151 lines to new file
for _ in range(210151):
if len(line := input.readline()) < 1:
break
output.write(line)
chunk += 1
Так вы хотите сказать, что Matlab не сможет с этим справиться? К сожалению, я не совсем знаком с Python.
Я не эксперт по Matlab, но то, о чем вы просили, больше похоже на задачу, которую вы можете легко выполнить с помощью стандартных утилит командной строки Unix; или, самое большее, это можно сделать с помощью нескольких строк сценария оболочки. Поскольку такие инструменты, как split и tail, работают «потоково» (не загружают весь файл в память сразу), они могут легко обрабатывать гигабайты данных. Сценарий Python — еще один простой способ. Скрипт должен работать как есть, просто запустите его с помощью python3 script.py. Возможно, измените имена файлов по мере необходимости.
Содержит ли он также цикл for и периодически извлекает 210151 строку?