Есть ли способ указать имя столбца, сгенерированное функцией inline_outer в Spark SQL?

У меня есть таблица с именем order вот так:

идентификатор кампании 2 [{"id": "1", "title": "тест", "type": "один"}, {"id": "2", "title": "test2", "type": "два "}] 5 [{"id": "3", "title": "test3", "type": "три"}]

Что я ожидаю:

идентификатор идентификатор кампании заголовок тип 2 1 тест один 2 2 тест2 два 5 3 тест3 три

Мой код:

SELECT orderId AS id, id AS campaignid, title, type
FROM (
    SELECT id AS orderId, inline_outer(from_json(campaigns, 'ARRAY<STRUCT<id: STRING, title: STRING, type: STRING>>'))
    FROM order
);

Мне нужно переименовать поле id в orderId в подзапросе, потому что мое поле campaigns содержит ключ id.

Вопрос. Можно ли указать имя столбца, сгенерированное функцией inline_outer в Spark SQL?

Что я пробовал:

SELECT id, inline_outer(from_json(campaigns, 'ARRAY<STRUCT<id: STRING, title: STRING, type: STRING>>')) AS ('campaignId', 'title', 'type')
FROM order;
SELECT id, inline_outer(from_json(campaigns, 'ARRAY<STRUCT<id: STRING, title: STRING, type: STRING>>')) AS {'campaignId', 'title', 'type'}
FROM order;

Однако два приведенных выше метода не соответствуют синтаксису Spark SQL.

Заранее спасибо.

Вы уверены, что хотите использовать Spark SQL? было бы проще использовать искровые функции.

Steven 13.02.2023 11:08
campaigns это строка или массив структур?
Steven 13.02.2023 11:09

@Steven Да, я хочу использовать Spark SQL или PySpark. campaigns — это строка JSON, поэтому я использовал функцию from_json.

Guoran Yun 13.02.2023 13:28
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
3
63
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Вам нужно cast вывести from_json и изменить имя столбца:

SELECT 
    id, 
    inline_outer(cast(from_json(campaigns, 'ARRAY<STRUCT<id: STRING, title: STRING, type: STRING>>') AS ARRAY<STRUCT<campaignId: STRING, title: STRING, type: STRING>>)) 
FROM order;

Вот решение, использующее полный pyspark:

from pyspark.sql import functions as F, types as T

# Define schema of the JSON
schema = T.ArrayType(
    T.StructType(
        [
            T.StructField("id", T.StringType()),
            T.StructField("title", T.StringType()),
            T.StructField("type", T.StringType()),
        ]
    )
)
# OR you can use also this schema with your current example
schema = T.ArrayType(T.MapType(T.StringType(), T.StringType()))

# Convert string to struct 
df = df.withColumn(
    "campaigns",
    F.from_json("campaigns", schema),
)

# Explode the array
df = df.withColumn("campaign", F.explode("campaigns"))

# Rename the field
df = df.select(
    "id",
    F.col("campaign.id").alias("caimpagnId"),
    F.col("campaign.title"),
    F.col("campaign.type"),
)
+---+----------+-----+-----+
| id|caimpagnId|title| type|
+---+----------+-----+-----+
|  2|         1| test|  one|
|  2|         2|test2|  two|
|  5|         3|test3|three|
+---+----------+-----+-----+

Другие вопросы по теме