У меня есть 12000 файлов в формате .npy. Я делаю это, потому что мои изображения имеют оттенки серого. Каждый файл (64,64). Я хочу знать, есть ли способ разделить тест и обучить использовать автоэнкодер.
Мой автоэнкодер будет обучаться с (64,64) изображениями. Если у кого-то есть опыт работы с автоэнкодерами: С кем лучше тренироваться (3,64,64) или (64,64)? Формат png, jpg лучше, чем npy?






Вы можете использовать sklearn train_test_split.
import numpy as np
from sklearn.model_selection import train_test_split
list_of_images = # a list containing the paths of all your data files
# or a numpy array of shape (12000, 64, 64)
train_list, test_list = train_test_list(list_of_images, test_size=0.1, random_state=0, shuffle=True)
Приведенный выше фрагмент должен разделить ваши данные на 90% и 10% для обучения и тестирования.
Поскольку ваши изображения имеют оттенки серого, нет необходимости использовать (3, 64, 64), автоэнкодеры будут нормально работать с (64, 64) --- или (1, 64, 64), если быть точным.
Нет необходимости, лучше хранить изображения отдельно на диске (чтобы вы могли открывать и проверять эти изображения по отдельности, если это необходимо). Вы можете объединить их вместе после загрузки в свой код с помощью np.stack, если это необходимо.
Так бы и было, спасибо. во втором пункте вы упомянули большой массив размеров (12000,64,64), должен ли я объединить свои отдельные файлы npy в этот формат?