Textscan не работает с большими файлами в Matlab?

В настоящее время я использую последнюю версию Matlab на Mac с 16 ГБ ОЗУ.

Я попытался разбить действительно большой файл куба (100 ГБ) на более мелкие файлы куба, содержащие всего 210151 строку в каждом файле, используя этот код:

%% Splitting
% opening the result.cube file
fid = fopen(cube) ;
if fid == -1
    error('File could not be opened.');
end

 m = 1 ;

while ~feof(fid)
    % skip the alpha and beta density
    fseek(fid,16596786,0) ;

    % copy the spin density
    text = textscan(fid,'%s',210150,'Delimiter','\n','Whitespace','') ;


    % Prints the cube snap shot to the subdirectory 
    name = string(step_nr(m))+'.cube' ;
    full_path = fullfile(name1,name) ;
    fid_new = fopen(full_path,"w") ;
    fprintf(fid_new,'%s\n', text{1}{:}) ;
    fclose(fid_new) ;
    m = m+1 ;
end

fclose(fid) ;

save("steps","step_nr")

end

Моя проблема: видимо, textscan не подходит для файлов такого типа. Я также попробовал построчное копирование с помощью fgetl, что, с другой стороны, занимает много времени для файла размером 100 ГБ. Есть ли более эффективный способ разделить файл?

Я читал о fscanf и попробовал это:

tic;
fid = fopen('result.cube');
fgetl(fid) ; fgetl(fid) ;
f = fscanf(fid, '%d %f %f %f', [4 4]) ;
s = fscanf(fid, '%d %f %f %f %f', [5 192]) ;
n = fscanf(fid, '%f %f %f %f %f %f', [6 209953]) ;
fid_new = fopen("new",'w') ;
fprintf(fid_new, '%d %.6f %.6f %.6f\n', f) ;
fprintf(fid_new, '%d %.6f %.6f %.6f %.6f\n', s) ;
fprintf(fid_new, '%f %f %f %f %f\n', n) ;
fclose(fid) ;
t=toc

Но моя проблема в том, что s не выравнивается в отдельном файле, как в большом файле. n указывается в десятичном формате, а не, например, E-02. Я также пытался скопировать его построчно, но на это ушли годы. Есть предложения, как это улучшить? Я хочу, чтобы это выглядело так:

введите сюда описание изображения

Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
0
55
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Вам нужно сделать это в Matlab? Можете ли вы просто использовать инструмент командной строки split?
https://man7.org/linux/man-pages/man1/split.1.html

Это должно выполнить эту работу:

split input_file.txt --lines=210151

Если вы дополнительно хотите пропустить (отбросить) первые 16596786 байт входного файла:

tail -c +16596786 input_file.txt | split --lines=210151

Чтобы сначала разделить входной файл, а затем удалить первые 16596786 байт из каждого фрагмента:

split --lines=210151 input_file output_
for i in output_*; do tail -c +16596786  ${i} > ${i}.chopped; done

Содержит ли он также цикл for и периодически извлекает 210151 строку?

Dat Ho 22.05.2024 15:43

Вам не нужна петля. Программа split просто берет входной файл и разбивает его на каждые n строки или каждые n байты, в зависимости от того, как вы его вызываете. Это создаст столько «кусков» (то есть выходных файлов), сколько необходимо. В примере, который я привел, он разбивает каждые 210151 строки. Как это работает внутри, полностью зависит от реализации split. Вам не нужно заботиться.

Schraubstock1990 22.05.2024 15:49

Спасибо! Но насколько я понимаю он отрубает только первые 16596786 байт, так? Я бы также хотел каждый раз измельчать первые байты перед сбором нужных мне строк.

Dat Ho 23.05.2024 13:31

Да, в приведенном выше примере мы пропускаем (отбрасываем) первые 16596786 байт. Затем оставшиеся данные разбиваются на n отдельные фрагменты (файлы), так что каждый фрагмент содержит (максимум) 210151 строку. Последний фрагмент на самом деле может быть короче, если общее количество строк не кратно 210151. Также можно было бы сначала разделить файл на несколько фрагментов (либо по максимальному количеству строк в фрагменте, либо по максимальному количеству байт на фрагмент), а затем отбросить первые x байты (или строки) каждого фрагмента.

Schraubstock1990 23.05.2024 14:13

Ах да, второй подход на самом деле будет лучше, потому что я хочу отбросить первые несколько байтов в каждом фрагменте.

Dat Ho 23.05.2024 17:08

В качестве альтернативного ответа вы можете использовать следующий скрипт Python:

import os
with open('input.txt', 'rb') as input:
    size = os.fstat(input.fileno()).st_size
    chunk = 0
    while input.tell() < size:
        # skip the next 16596786 bytes
        input.seek(16596786, 1)
        with open(f'output-{chunk:02X}.txt', 'wb') as output:
            # copy up to 210151 lines to new file
            for _ in range(210151):
                if len(line := input.readline()) < 1:
                    break
                output.write(line)
        chunk += 1

Так вы хотите сказать, что Matlab не сможет с этим справиться? К сожалению, я не совсем знаком с Python.

Dat Ho 23.05.2024 17:09

Я не эксперт по Matlab, но то, о чем вы просили, больше похоже на задачу, которую вы можете легко выполнить с помощью стандартных утилит командной строки Unix; или, самое большее, это можно сделать с помощью нескольких строк сценария оболочки. Поскольку такие инструменты, как split и tail, работают «потоково» (не загружают весь файл в память сразу), они могут легко обрабатывать гигабайты данных. Сценарий Python — еще один простой способ. Скрипт должен работать как есть, просто запустите его с помощью python3 script.py. Возможно, измените имена файлов по мере необходимости.

Schraubstock1990 23.05.2024 18:01

Другие вопросы по теме