Как объединить преобразования в фрейме данных Spark scala?

Я учу себя scala (чтобы использовать его с Apache Spark) и хотел знать, будет ли какой-то способ объединить ряд преобразований в Spark DataFrame. Например. давайте предположим, что у нас есть список преобразований

l: List[(String, String)] = List(("field1", "nonEmpty"), ("field2", "notNull"))

и Spark DataFrame

df, чтобы желаемый результат был

df.filter(df("field1") =!= "").filter(df("field2").isNotNull).

Я думал, что это можно сделать с помощью композиции функций, свертки списка или чего-то еще, но я действительно не знаю, как это сделать. Любая помощь будет принята с благодарностью.

Спасибо!

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
0
31
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Да, это вполне возможно. Но это зависит от того, что вы действительно хотите, я имею в виду, что Spark предоставляет Трубопроводы, что позволяет составлять ваши преобразования и создавать конвейер, который можно сериализовать. Вы можете создавать свои собственные трансформеры, например, здесь. Вы можете включить свои «фильтрующие» этапы в пользовательские преобразования, которые вы сможете использовать позже, например, в структурированной потоковой передаче Spark.

Другой вариант — использовать наборы данных Spark и API трансформировать. Это кажется более функциональным и элегантным.

В Scala есть много возможностей для создания собственного API, но сначала взгляните на эти подходы.

Вау, я не знал ни о искровых конвейерах, ни о Transform API. Большое спасибо за ваш ответ!

MrMuppet 17.03.2022 15:19

Да, вы можете свернуть существующий Dataframe. Вы можете сохранить все столбцы в списке и не беспокоиться о других промежуточных типах:

val df =
 ???

val columns =
  List(
    col("1") =!= "",
    col("2").isNotNull,
    col("3") > 10
 )
  
val filtered = 
  columns.foldLeft(df)((df, col) => df.filter(col))

Другие вопросы по теме