Используйте Spark fileoutputcommitter.algorithm.version=2 с AWS Glue

Я не смог понять это, но я пытаюсь использовать коммиттер прямого вывода с AWS Glue:

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2

Можно ли использовать эту конфигурацию с AWS Glue?

moku просто проверьте мой ответ, надеюсь, он вам поможет! одна вещь: spark.hadoop не нужен, так как мы напрямую используем hadoopConfiguration, поэтому конфигурация будет mapreduce.fileoutputcommitter.algorithm.version вместо spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version

— 03.06.2019 22:04

это полезно? какие-либо вопросы, с которыми я могу помочь? пожалуйста, примите ответ / проголосуйте, если вы согласны. Спасибо!

— 04.06.2019 18:06

@RamGhadiyaram У меня не было возможности протестировать. Я обязательно оставлю отзыв и/или проверю ваш ответ, если это действительно решение.

— 04.06.2019 18:12

scala amazon-web-services apache-spark pyspark aws-glue

03.06.2019 20:27

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

2 948

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Опция 1 :

Glue использует искровой контекст, вы также можете настроить конфигурацию hadoop на клей aws. поскольку внутренний динамический фрейм является своего рода фреймом данных.

sc._jsc.hadoopConfiguration().set("mykey","myvalue")

Я думаю, вам нужно добавить соответствующий класс также, как это

sc._jsc.hadoopConfiguration().set("mapred.output.committer.class", "org.apache.hadoop.mapred.FileOutputCommitter")

пример фрагмента:

 sc = SparkContext()

    sc._jsc.hadoopConfiguration().set("mapreduce.fileoutputcommitter.algorithm.version","2")

    glueContext = GlueContext(sc)
    spark = glueContext.spark_session

Чтобы доказать, что эта конфигурация существует ....

Отладка в питоне:

sc._conf.getAll() // print this

Отладка в scala:

sc.getConf.getAll.foreach(println)

Вариант 2:

С другой стороны вы пытаетесь использовать рабочие параметры клея:

https://docs.aws.amazon.com/glue/latest/dg/add-job.html который имеет свойства ключевого значения, как указано в документах

'--myKey' : 'value-for-myKey'

вы можете следовать снимку экрана ниже для редактирования задания и указания параметров с помощью --conf

Вариант 3:
Если вы используете aws cli, вы можете попробовать ниже... https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html

Забавно, что они упоминаются в сообщении не устанавливайте документации, как показано ниже. но я не знаю, почему это было выставлено.

To sum up : I personally prefer option1 since you have programmatic control.

03.06.2019 20:59

Перейдите в консоль задания клея и отредактируйте задание следующим образом:

Glue> Jobs > Edit your Job> Script libraries and job parameters (optional) > Job parameters

Установите следующее:

key: --conf value:
spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2

05.06.2019 10:20

Другие вопросы по теме

Jenkinsfile для автоматического развертывания в EKS

Перемещение работающего экземпляра AWS в другой регион

AWS DMS: как обрабатывать паркетные поля TIMESTAMP_MICROS в Presto/Athena

Подавать одностраничное приложение по определенному пути с помощью AWS

Запрос AppSync sortField: «ceatedAt» установлен в порядке убывания

Проблема с тем, чтобы мой простой веб-сайт использовал SSL в SSL и CloudFront

Ошибка авторизации с использованием сегментов AWS S3

AWS Cognito / Получение информации о пользователе из сабвуфера

AWS MediaConvert не удалось определить регион для корзины s3.Bucket(name='myname')

Скала-приложение AWS Lambda Нет общедоступного метода с именем дескриптора с соответствующей сигнатурой метода

Используйте Spark fileoutputcommitter.algorithm.version=2 с AWS Glue

Ответы 2

Другие вопросы по теме

Похожие вопросы