Как разобрать поля StructType в Scala?

Я пишу программу spark-jdbc для чтения данных из базы данных postgres и перемещения тех же данных в Hive на HDFS. Я могу читать данные из postgres. Перед перемещением данных в Hive я должен создать схему и таблицу в Hive для тех же данных и с типами данных, указанными в нашем проекте, которые аналогичны типам в postgres. Например:

source datatype                            Hive datatype
character varying\([0-9]{1,4}\)       ->    string
bigint                                ->    bigint
integer                               ->    int
smallint                              ->    int
numeric\([0-9]{1,3},0\)               ->    bigint
numeric\([0-9]{1,3},[1-9][0-9]{0,2}\) ->    double

Если столбец в источнике имеет тип данных smallint, его следует сделать int в Hive. Я получил схему с помощью функции 'schema'

val tbSchema = yearDF.schema

Теперь tbSchema присутствует в виде: org.apache.spark.sql.types.StructType, который я не понимаю, как анализировать и читать значения внутри него.

Например, если StructType имеет: StructType(StructField(id,IntegerType,false), StructField(name,StringType,true), StructField(company,StringType,true))

Как я могу прочитать его и извлечь имя столбца и тип данных из коллекции, чтобы я мог использовать те же данные для изменения типа данных и создания схемы для таблицы куста?

scala apache-spark hive

26.07.2018 09:07

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

1 454

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

StructType обычно состоит из подэлементов, называемых StructField, у которых есть конструктор вроде:

StructField(String name, DataType dataType, boolean nullable, Metadata metadata)

Чтобы получить эти поля, вы можете просто сделать

val tbSchema = yearDF.schema.map(s => (s.name, s.dataType))

26.07.2018 09:16

Другие вопросы по теме

Исключить пустые строки в функции countDistinct agg

Как запустить серверный / клиентский grpc с помощью scalapb на искре?

Невозможно запустить искровой снаряд

Как добавить CDATA в XML с помощью библиотеки Spark XML

Параметры пула Spark

Фрейм данных Spark 2.x, прочитанный с использованием фиксированной схемы

Как реализовать алгоритм FPGrowth в Python?

Ngrams работают в Hive, но не в Spark-Shell (Scala)

PySpark Установить значение столбца, равное другому значению фрейма данных, если строки совпадают

Не удалось записать фрейм данных в S3 в pyspark

Как разобрать поля StructType в Scala?

Ответы 1

Другие вопросы по теме

Похожие вопросы