У меня относительно огромный набор данных (около 5 ГБ) изображений, хранящихся на диске Google в папке. Я хотел немного обработать и применить к набору данных алгоритмы глубокого обучения. Чтобы это было возможно, у меня должен быть набор данных в среде Kaggle. Я поискал в Интернете и понял, что выхода нет, или, по крайней мере, это то, что мне пока удалось собрать.
В этом ответе используется библиотека gdown, но, вероятно, Google Drive отказывает в доступе из-за проблем с файлами cookie. Я попытался подключить файлы cookie к среде Kaggle. Но это было бесполезно.
Возможно, мне придется написать еще какие-то скрипты для загрузки самих данных. Возможно, сначала поможет сохранение ссылок на отдельные файлы в папке на диске Google, а затем просмотр ссылок в среде Kaggle. Но мне было лениво.
Я хотел знать, можно ли как-то это сделать?
@PaoloJ42 PaoloJ42 задолго до этого я попробовал это, сначала установив папку на свой локальный компьютер, а затем загрузив заархивированную папку для Kaggle через загрузку. но и это пошло не очень хорошо.
@PaoloJ42 да, я наконец нашел решение. Ваш сработал. Наверное, раньше я делал это неправильно. Спасибо
Хотя лучшего способа я не нашел. Но вот что сработало для меня, как мне посоветовал @PaoloJ42:
Загрузите набор данных с диска Google. (Он уже будет в заархивированном виде)
Вместо загрузки заархивированной папки в параметр «Загрузить данные» в среде Kaggle лучше создать собственный набор данных в Kaggle. Используйте Набор данных > Новый набор данных. Вы можете сделать его приватным.
После загрузки заархивированная папка автоматически разархивируется. Вы можете воспользоваться ссылкой. Просто добавьте следующий фрагмент:
import os
os.environ['KAGGLE_USERNAME'] = 'username'
os.environ['KAGGLE_KEY'] = 'kaggle_key'
Вы можете получить вышеизложенное в «Настройки» > «Создать новый токен» (в разделе API).
Таким образом, вам не придется время от времени загружать файлы.
На самом деле, ваш лучший вариант по-прежнему конвертировать данные в один (или несколько) сжатых файлов с помощью colab, а затем использовать gdown, чтобы разместить их в ядре Kaggle.