Сохраните pandas в фрейме данных API искры в новую таблицу в лазурных блоках данных

Контекст: у меня есть фрейм данных, который я запросил с помощью SQl. Из этого запроса я сохранил данные в фрейме данных, используя pandas на spark API. Теперь, после некоторых преобразований, я хотел бы сохранить этот новый фрейм данных в новой таблице в данной базе данных.

Пример:

spark = SparkSession.builder.appName('transformation').getOrCreate()
df_final = spark.sql("SELECT * FROM table")
df_final = ps.DataFrame(df_final)
## Write Frame out as Table
spark_df_final = spark.createDataFrame(df_final)
spark_df_final.write.mode("overwrite").saveAsTable("new_database.new_table")

но это не работает. Как я могу сохранить фреймворк данных pandas на spark API непосредственно в новую таблицу в базе данных (эта база данных еще не существует) Спасибо

Проверьте это - sparkbyexamples.com/pyspark/convert-pandas-to-pyspark-datafr‌​ame

Vikramsinh Shinde 18.11.2022 15:57
14 Задание: Типы данных и структуры данных Python для DevOps
14 Задание: Типы данных и структуры данных Python для DevOps
проверить тип данных используемой переменной, мы можем просто написать: your_variable=100
Python PyPDF2 - запись метаданных PDF
Python PyPDF2 - запись метаданных PDF
Python скрипт, который будет записывать метаданные в PDF файл, для этого мы будем использовать PDF ридер из библиотеки PyPDF2 . PyPDF2 - это...
Переменные, типы данных и операторы в Python
Переменные, типы данных и операторы в Python
В Python переменные используются как место для хранения значений. Пример переменной формы:
Почему Python - идеальный выбор для проекта AI и ML
Почему Python - идеальный выбор для проекта AI и ML
Блог, которым поделился Harikrishna Kundariya в нашем сообществе Developer Nation Community.
Как автоматически добавлять котировки в заголовки запросов с помощью PyCharm
Как автоматически добавлять котировки в заголовки запросов с помощью PyCharm
Как автоматически добавлять котировки в заголовки запросов с помощью PyCharm
Анализ продукта магазина на Tokopedia
Анализ продукта магазина на Tokopedia
Tokopedia - это место, где продавцы могут продавать свои товары. Товар должен быть размещен на витрине, чтобы покупателям было легче найти товар...
0
1
94
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете использовать следующую процедуру. У меня есть следующая демонстрационная таблица.

enter image description here

  • Вы можете преобразовать его в фрейм данных pandas API spark, используя следующий код:
df_final = spark.sql("SELECT * FROM demo")
pdf  = df_final.to_pandas_on_spark()
#print(type(pdf))
#<class 'pyspark.pandas.frame.DataFrame'>
  • Теперь, после выполнения необходимых операций с этим фреймом данных pandas в API spark, вы можете преобразовать его обратно в фреймворк данных spark, используя следующий код:
spark_df = pdf.to_spark()
print(type(spark_df))
display(spark_df)

enter image description here

  • Теперь, чтобы записать этот фрейм данных в таблицу в новую базу данных, вы должны сначала создать базу данных, а затем записать фрейм данных в таблицу.
spark.sql("create database newdb")
spark_df.write.mode("overwrite").saveAsTable("newdb.new_table")

enter image description here

  • Вы можете видеть, что таблица записывается в новую базу данных. Ниже приведено эталонное изображение того же самого:

enter image description here

Другие вопросы по теме

Фабрика данных Azure — повторите попытку для действия копирования вставки (AzureSQL DB)
Pyspark: динамически добавить одну строку в окончательный фрейм данных
Каков отраслевой стандарт метода дедупликации в потоках данных?
Как снова использовать вновь созданный столбец в преобразовании производного столбца в том же преобразовании производного столбца?
Можно ли запустить Node-Red в докере на виртуальной машине EFLOW (Azure IoT Edge на устройстве Windows)?
Как проверить, пусты ли файлы в каталоге озера данных с помощью Фабрики данных Azure?
Azure Databricks: непредвиденный сбой при ожидании готовности кластера. Причина Кластер непригоден для использования, так как драйвер неисправен
Напишите сценарий PowerShell с помощью модуля Runbook, чтобы сделать моментальный снимок виртуальной машины: Запуск от имени учетной записи: Azure
Как добавить журналы в аналитику журналов в приложениях логики Azure?
Локальный репозиторий helm не обновляется из реестра контейнеров Azure