У меня есть сценарий pyspark как часть работы идиота. Действия следующие: 1. Получите данные из хранилища данных. 2. Некоторые операции по изменению данных в кластере. 3. Загрузите данные. В настоящее время выполняется toPandas () в фрейме данных pyspark. [Это делается для простого преобразования в дамп json] 4. Отправка данных в REST API.
Шаг (3) требуется только из-за шага (4), поскольку мне нужны данные, которые должны быть в драйвере, чтобы иметь возможность выполнять вызов REST. Однако я заметил, что шаг (3) отвечает за переменное время выполнения моего скрипта, а также за замедление моего скрипта. Мой вопрос, можно ли вызывать и отправлять POST в REST API с рабочих узлов? Я видел несколько примеров использования запроса GET из REST (https://dataplatform.cloud.ibm.com/analytics/notebooks/52845a4a-1b5e-4f6e-b1a3-f312d796a93a/view?access_token=e3f303d7dd90138a9cf1fb77b00265a7b01c5e20e20e128), но это не сработало для моего варианта использования.





Можете ли вы опубликовать код, который вы пробовали? а результаты / ошибка?