Я пытаюсь загрузить артефакты учебного задания на S3 в несжатом виде.
Я знаком с output_dir, который можно предоставить оценщику sagemaker, тогда все, сохраненное в /opt/ml/output, загружается в сжатом виде в выходной каталог S3.
Я хочу иметь возможность доступа к определенному артефакту без необходимости каждый раз распаковывать вывод. Есть ли чистый способ сделать это? если нет никакого обходного пути? Артефакты, которые меня интересуют, представляют собой небольшие файлы метаданных .txt или .csv, в то время как в моем случае остальные артефакты могут иметь размер ~ 1 ГБ, поэтому загрузка и распаковка довольно чрезмерны.
любая помощь будет оценена
Я думаю, вы можете просто указать путь к местоположению s3, чтобы сохранить свой артефакт в своем обучающем сценарии. Однако я не совсем уверен, что экземпляры, созданные sagemaker, имеют разрешение на прямую запись в S3, возможно, они также изолированы от сети. Я делаю более или менее то, что вы говорите, чтобы читать журналы tensorflow в реальном времени, но я использую собственное изображение для обучения. Если вам интересно, вы можете посмотреть здесь
> Я попробовал то, что вы описываете, но экземпляры EC2 не имеют зарегистрированных учетных данных AWS. Я не думаю, что это обязательно верно. Вы должны иметь возможность получить сеанс AWS в контейнере. Предполагается, что ваша роль IAM должна иметь учетные данные. Вы можете управлять доступом для чтения S3 в этой роли.
В итоге я использовал путь контрольной точки, который по умолчанию синхронизируется с указанным путем S3 в несжатом виде.
спасибо, я попробовал то, что вы описываете, но экземпляры EC2 не имеют зарегистрированных учетных данных AWS ... поэтому у вас нет разрешения