Потоковая запись в Google Cloud Storage на Python

Я пытаюсь перенести функцию AWS Lambda, написанную на Python, в CF,

  1. распаковывает на лету и читает построчно
  2. выполняет некоторые световые преобразования в каждой строке
  3. записывать вывод (строка за раз или фрагменты) без сжатия в GCS

На выходе получается> 2 ГБ, но немного меньше 3 ГБ, поэтому он подходит для Lambda, просто.

Что ж, это кажется невозможным или более сложным для GCP:

  • несжатый не может поместиться в памяти или /tmp - ограничен 2048 МБ на момент написания - поэтому Python Client lib upload_from_file (или _filename) не может использоваться
  • есть официальная статья это, но, к моему удивлению, она относится к boto, библиотеке, изначально разработанной для AWS S3, и довольно устаревшей, поскольку boto3 уже давно отсутствует. Нет подлинного метода GCP для потоковой записи или чтения
  • В Node.js есть простой createWriteStream() - хорошая статья здесь, кстати, - но нет эквивалентного однострочника в Python
  • Возобновляемая загрузка мультимедиа звучит так, но много кода для чего-то обрабатывается в Node намного проще
  • В AppEngine был облачное хранилище, но он был недоступен за его пределами - и устарел.
  • практически нет примеров рабочей оболочки для построчной записи текста / простых данных, как если бы GCS был локальной файловой системой. Это не ограничивается Cloud Functions и отсутствующей функцией клиентской библиотеки Python, но более остро стоит в CF из-за ограничений ресурсов. Кстати, я был частью обсуждение, чтобы добавить записываемую функцию IOBase, но это не имело успеха.
  • очевидно, что использование ВМ или DataFlow для поставленной задачи не может быть и речи.

На мой взгляд, потоковое (или потоковое) чтение / запись из облачного хранилища должно быть даже включено в стандартную библиотеку Python.

Как рекомендовалось тогда, можно по-прежнему использовать GCSFS, который за кулисами фиксирует загрузку фрагментами для вас, пока вы записываете материал в FileObj. Эта же команда написала s3fs. Я не знаю, что касается Azure.

AFAIC, я буду придерживаться AWS Lambda, так как вывод может уместиться в памяти - пока что - но многостраничная загрузка - это способ поддержать любой размер вывода с минимумом памяти.

Мысли или альтернативы?

upload_from_file использует объект, похожий на файл, так что, может быть, вы можете использовать генератор для выполнения нужной работы?

Hitobat 30.10.2018 18:46

К сожалению, для этого требуется, чтобы обработчик файлов был открыт в режиме только для чтения, а не в смешанном (чтение / запись). Другими словами, файл уже должен существовать целиком. Цель состоит в том, чтобы прочитать (записать GCS / S3) как вашу запись в обработчик в памяти.

Yannick Einsweiler 30.10.2018 19:37
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
11
2
3 890
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Я запутался с загрузкой multipart и resumable. Последнее - то, что вам нужно для «потоковой передачи» - на самом деле это больше похоже на загрузку фрагментов буферизованного потока.

Загрузка Multipart предназначена для одновременной загрузки данных и пользовательских метаданных в одном вызове API.

Хотя мне очень нравится GCSFS - Мартин, его основной участник очень отзывчивый - я недавно нашел альтернатива, который использует библиотеку google-resumable-media.

GCSFS построен на основном http API, тогда как решение Seth использует низкоуровневую библиотеку, поддерживаемую Google, более синхронизированную с изменениями API и включающую экспоненциальное резервное копирование. Последнее действительно необходимо для большого / длинного потока, так как соединение может обрываться даже внутри GCP - мы столкнулись с проблемой с GCF.

В заключение, я по-прежнему считаю, что Облачная библиотека Google - подходящее место для добавления потоковой функциональности с базовыми write и read. У него есть основной код уже.

Если вас тоже интересует эта функция в основной библиотеке, отметьте проблему здесь - предполагая, что на ней основан приоритет.

smart_open теперь поддерживает GCS, а также поддерживает распаковку на лету.

import lzma
from smart_open import open, register_compressor

def _handle_xz(file_obj, mode):
    return lzma.LZMAFile(filename=file_obj, mode=mode, format=lzma.FORMAT_XZ)

register_compressor('.xz', _handle_xz)

# stream from GCS
with open('gs://my_bucket/my_file.txt.xz') as fin:
    for line in fin:
        print(line)

# stream content *into* GCS (write mode):
with open('gs://my_bucket/my_file.txt.xz', 'wb') as fout:
    fout.write(b'hello world')

Другие вопросы по теме