Библиотека Python для воспроизводимого удаленного доступа к данным с кэшированием файлов

В моем анализе данных я часто использую файл xlsx или csv из удаленного места (URL-адрес). Я хочу, чтобы мой код был воспроизводимым и понятным, поэтому лучше всего было бы загрузить файл в моем коде Python, чтобы URL-адрес содержался в моем сценарии, однако при запуске моего сценария он будет загружать файл каждый раз, что занимает слишком много времени. Итак, мой вопрос: существует ли библиотека Python, которая автоматически загружает и кэширует файлы, поэтому я могу использовать URL-адреса в своем коде, например

from remotecaching import r_url

f = open(r_url("https://domain.tld/resource.csv"))

В этом примере r_url загружает файл (если его нет в локальном кеше) и возвращает путь к закэшированному файлу.

У Snakemake есть похожая система (https://snakemake.readthedocs.io/en/stable/snakefiles/remote_files.html), которая, однако, непригодна для использования за пределами экосистемы змейки.

python file caching

05.04.2019 19:44

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я написал простую оболочку, которая делает то, что я искал. Он использует каталог XDG Cache для хранения загруженных файлов.

import hashlib
import os
from urllib.parse import urlparse
import zipfile
import tempfile
import subprocess
from pathlib import Path

import pandas as pd
import requests

DATA_DIR = Path(save_cache_path('yourdatadirname'))
if not DATA_DIR.exists():
    os.mkdir(DATA_DIR)
def hash(s):
    try:
        return hashlib.sha256(s).hexdigest()
    except TypeError:
        return hashlib.sha256(s.encode('utf-8')).hexdigest()

def delete_cached_file(url):
    '''
    Helper function to delete an erroneous file or something like that..
    '''
    filename = DATA_DIR / hash(url)

    os.remove(filename)


def ssh_file(url):
    filename = DATA_DIR / hash(url)

    if not filename.exists():
        subprocess.run(['scp', url, filename])

    return filename


def http_file(url, zip_extract_name=None):
    '''
    Automatically downloads a URL (if not cached) and provides the file path;
    Also tries to automatically unzip files (only works with ZIP files containing a single file with the correct naming..)
    :zip_extract_name: extract the specified filename from a ZIP file
    '''
    filename = DATA_DIR / hash(url)

    if not filename.exists():
        r = requests.get(url, allow_redirects=True)

        url_filename = os.path.basename(urlparse(url).path)
        inner_url_filename, ext = os.path.splitext(filename)
        if zip_extract_name:
        # if ext == '.zip':
            zf = tempfile.NamedTemporaryFile(delete=False)
            zf.write(r.content)
            zf.close()

            with zipfile.ZipFile(zf.name, 'r') as zipped_file:
                data = zipped_file.read(zip_extract_name)
        else:
            data = r.content
        with open(filename, 'wb') as f:
            f.write(data)

    return filename

07.05.2019 13:49

Другие вопросы по теме

Почему время последнего доступа к файлу изменяется, когда он сохраняется в списке или объекте?

Как получить-Childitem и включить только подпапки и файлы?

Как открыть и прочитать несколько файлов .txt

Чтение двоичного файла в режиме чтения Python 3 — проходит в Windows, не работает в Linux

Как получить доступ и воспроизвести аудиофайл из папки класса ресурсов Java?

Как удалить файл по пути

Перемещение нескольких файлов по ранее примененному параметру

Есть ли команда Linux, которая показывает строку указанной длины в файле?

Как может быть, что «не все файловые объекты доступны для поиска», согласно pydoc?

Работа с файлами в ASP.NET MVC

Библиотека Python для воспроизводимого удаленного доступа к данным с кэшированием файлов

Ответы 1

Другие вопросы по теме

Похожие вопросы