Загрузите данные jsonb из postgresql в pyspark и сохраните их в MapType

Таблицы продуктов создают и вставляют скрипты:

create table products (product_id varchar, description varchar, attributes jsonb, tax_rate decimal);

insert into products values ('P1', 'Detergent', '{"cost": 45.50, "size": "10g"}', 5.0 );
insert into products values ('P2',  'Bread',    '{"cost": 45.5, "size": "200g"}',3.5);

Я пытаюсь сохранить данные jsonb из postgresql в формат данных/словаря типа карты в PySpark, а затем извлечь «стоимость» и «размер» из столбца «атрибуты» в отдельные столбцы. Но PySpark читает данные jsonb как строку.

Код PySpark для чтения данных из Postgresql:

import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, MapType, DecimalType

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.jars", "C:\\Users\\nupsingh\\Documents\\Jars\\postgresql-42.7.3.jar") \
    .getOrCreate()

schema = StructType([

    StructField('product_id',
                StringType(), True),

    StructField('description',
                StringType(), True),

    StructField('attributes',
                MapType(StringType(),IntegerType()),False),

    StructField('tax_rate',
                DecimalType(), True)
])

df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/postgres") \
    .option("dbtable", "products") \
    .option("user", "user1") \
    .option("password", "password") \
    .option("driver", "org.postgresql.Driver") \
    .option("schema", schema) \
    .load()

df.show()

df.printSchema()

attributes_col = df.select("attributes")

attributes_col.show()

products_df = attributes_col.withColumn("cost",
                   col("attributes")["cost"]).withColumn(
    "size", col("attributes")["size"])

products_df.show()

python json postgresql dictionary pyspark

02.06.2024 08:01

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Короткий ответ: вы не можете напрямую загрузить поле jsonb в MapType в Pyspark.

Вот почему:

Когда вы считываете данные из базы данных с помощью источника данных JDBC PySpark, PySpark полагается на метаданные, предоставляемые драйвером JDBC, для определения типов данных столбцов. Драйвер JDBC сопоставляет типы данных базы данных с типами данных Java, которые затем сопоставляются с типами данных PySpark. В случае типа данных Postgres jsonb драйвер JDBC postgres сопоставляет его с типом Java String. PySpark при взаимодействии с драйвером JDBC получает данные jsonb в виде строки и выводит их как StringType в схеме. PySpark не имеет встроенного понимания конкретной структуры данных jsonb.

Есть ли обходной путь? Да, вы можете достичь своей цели в два этапа: 1- прочитать данные jsonb как строку и 2- использовать from_json, чтобы преобразовать их в MapType. Вот как вы можете это сделать:

from pyspark.sql.types import StructType, StructField, StringType, MapType, IntegerType, DecimalType
from pyspark.sql.functions import from_json, col

json_schema = MapType(StringType(),IntegerType()))

schema = StructType([
    StructField('product_id', StringType(), True),
    StructField('description', StringType(), True),
    StructField('attributes', MapType(StringType(), IntegerType(), True), True),
    StructField('tax_rate', DecimalType(), True),
    StructField('attributes_json', StringType(), True)  # Add a temporary field to hold the jsonb data
])

df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/postgres") \
    .option("dbtable", "products") \
    .option("user", "user1") \
    .option("password", "password") \
    .option("driver", "org.postgresql.Driver") \
    .option("schema", schema) \
    .load()

# Convert the jsonb column to a MapType
df = df.withColumn("attributes", from_json(col("attributes_json"), json_schema)) \
        .drop("attributes_json")

Спасибо за помощь. Когда я запускаю этот код, я получаю сообщение об ошибке: pyspark.errors.Exceptions.captured.AnalysisException: [UNRESOLVED_COLUMN.WITH_SUGGESTION] Невозможно разрешить параметр столбца или функции с именем attributes_json. Вы имели в виду одно из следующих? [attributes, product_id, tax_rate, description].; 'Проект [product_id#0, описание#1, from_json(MapType(StringType,IntegerType,true), 'attributes_json, Some(Asia/Calcutta)) AS атрибуты#25, Tax_rate#3] +- Отношение [product_id#0,description #1,атрибуты#2,tax_rate#3] JDBCRelation(продукты) [numPartitions=1]

— 02.06.2024 20:15

@Nupur Просто поменяйте местами attributes_json и atrributes. Я использовал другое имя, чтобы продемонстрировать двухэтапный процесс.

— 02.06.2024 20:19

Да, я только что понял. Большое спасибо!

— 02.06.2024 20:23

02.06.2024 12:39