Обработка RDD в файле scala

Я загрузил 2 файла csv, преобразовал RDD в DF и написал несколько условий JOIN для их выполнения. Для этого я использовал искровую оболочку. Теперь я хочу поместить / связать все эти команды в файл .scala и выполнить задание spark-submit. В настоящее время я не использую для этого IDE и хочу работать с терминала. Нужен ли для этого основной метод? Если да, пожалуйста, подскажите, как мне это сделать?

Большое спасибо за ваше время и вклад.

scala apache-spark apache-spark-sql rdd

05.06.2018 20:02

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Ответы 1

Вам не нужен основной метод для запуска скрипта Scala в искровой оболочке.

1. Запишите все шаги в файл и сохраните как file.scala.

2.Запустите искровую оболочку, например, spark-shell -i C: \ spark \ file.scala

Ниже приведен пример кода, который я написал в file.scala.

val rdd=sc.textFile("C:\\Users\\manoj kumar dhakad\\Desktop\\scores.txt")
rdd.collect.foreach(println)

Ниже представлен способ, которым я его отправил.

spark-shell -i C:\spark\file.scala

Пример вывода

rdd: org.apache.spark.rdd.RDD[String] = C:\Users\manoj kumar dhakad\Desktop\scores.txt MapPartitionsRDD[1] at textFile at <console>:24
75,89,150,135,200,76,12,100,150,28,178,189,167,200,175,150,87,99,129,149,176,200,87,35,157,189

Я пробовал с классом, но не смог дать с классом. Думаю, можно подарить банкой.

— 06.06.2018 19:48

05.06.2018 21:08