Добавление новых таблиц в тот же файл csv с помощью Scala Spark

Я хочу добавить таблицу metrics в существующий файл CSV. Я использую приведенный ниже код:

    metrics.coalesce(1)
    .write
    .option("header", "true")
    .option("sep",",")
    .mode("Append")
    .csv("data/outputs.csv}")

Каждый раз, когда выполняется приведенный ниже блок кода, в data / outputs.csv создается новый файл .part-00000-{xxxxxx-xxxxx......}.csv (где outputs.csv - это папка, а не файл CSV).

Есть ли способ всегда добавлять таблицу в один и тот же файл CSV, не создавая новый файл .csv? и какой способ определить окончательное имя этого CSV вместо использования формата .part-00000-{xxxxxx-xxxxx......}.csv?

Я пробовал с опцией добавления режима сохранения (.mode(SaveMode.Append)) с тем же результатом дублирования.

scala apache-spark

09.04.2021 22:54

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Ответы 1

Вы должны явно объединить их, а затем использовать Overwrite, а не добавлять. Что-то вроде этого:

spark
  .read
  .option(...)
  .csv("data/outputs.csv")
  .union(metrics)
  .coalesce(1)
  .write
  .option(...)
  .mode("Overwrite")
  .csv("data/outputs.csv")

09.04.2021 23:02

Другие вопросы по теме

Публикация поэзии из codebuild в aws codeartifact не выполняется с помощью UploadError

SPARK Как эффективно получить значение из таблицы сопоставления / поиска на основе ключа для разных диапазонов дат?

Несогласованный счетчик после оконной функции и фильтр

Преобразование больших файлов text / pgn в JSON в Spark

Попытка объединить ключи с одинаковым значением в искровой Java

Как принудительно выполнить операции с фреймворком pyspark?

Выброшенное исключение - это ожидаемый результат при преобразовании pyspark df в pandas

Преобразование данных JSON в столбце Spark DataFrame в табличный формат

Импорт данных API в DataBricks с целью экспорта в SQL

Печатать значение столбца в выводе, если путь не существует

Добавление новых таблиц в тот же файл csv с помощью Scala Spark

Ответы 1

Другие вопросы по теме

Похожие вопросы