Я пытаюсь загрузить большой файл .csv, где он хранится в моем github, в блокнот, который у меня есть в google colab. Вот схема кода, который я использую:
#download fixed data sets
import pandas as pd
import numpy as np
url_train = 'https://raw.githubusercontent.com/username/data/master/train_fixed.csv?token=[long_string]'
x_train = pd.read_csv(url_train)
Обычно это будет работать весело. Однако часто (но не всегда), если я закрываю блокнот и снова открываю его через день, если я просто повторно запускаю код, я получаю ошибку 404, не найденную для URL-адреса, и мне приходится возвращаться на github и повторно копировать (теперь измененный) необработанный URL-адрес для моего файла.
Я не уверен, почему это происходит или в чем я был уверен, и я хотел спросить, сталкивался ли кто-нибудь еще с этой проблемой и какие решения вы могли бы порекомендовать. Возможно, проблема в том, что это репо является частным?
Если репо является частным, срок действия аргумента token
, скорее всего, истекает, поэтому случайное раскрытие URL-адреса не препятствует доступу к данным без возможности отзыва. Я рекомендую организовать динамическое построение URL-адреса после получения параметра token
в контексте вашего текущего сеанса.
Как вы сейчас получаете URL?
Я иду в свой github, затем в папку данных, затем я нажимаю на файл «train_fixed», затем я нажимаю «Просмотр необработанных данных», копирую и вставляю URL-адрес в свой колаб (url_train = '[копировать и вставить]'
Ах, вам нужно переключиться на использование API-интерфейс GitHub для программного извлечения данных.
Спасибо! Как я могу организовать динамическое построение URL-адреса после получения параметра маркера в контексте моего текущего сеанса?