Я использую dataproc для отправки заданий на искру. Однако при отправке искры аргументы, не относящиеся к искре, считываются как зажигай аргументы!.
Я получаю сообщение об ошибке/предупреждении ниже при выполнении определенного задания.
Warning: Ignoring non-spark config property: dataproc:dataproc.conscrypt.provider.enable=false
gcloud dataproc jobs submit spark \
--cluster my-cluster \
--region us-east1 \
--properties dataproc:dataproc.conscrypt.provider.enable=false,spark.executor.extraJavaOptions=$SPARK_CONF,spark.executor.memory=${MEMORY}G,spark.executor.cores=$total_cores \
--class com.sample.run \
--jars gs://jars/jobs.jar \
-- 1000
Я хотел бы знать, что не так с моим текущим форматом. Заранее спасибо.
spark-submit
просто молча игнорировал параметры conf, которые не запускались с помощью spark.
вот почему это свойство было сказано, что оно было проигнорировано.
--properties dataproc:dataproc.conscrypt.provider.enable=false
любое свойство, которое вы должны передать как spark.
propertyname
это просто предупреждение.
Для чего требуется это свойство:
The Conscrypt security provider has been temporarily changed from the default to an optional security provider. This change was made due to incompatibilities with some workloads. The Conscrypt provider will be re-enabled as the default with the release of Cloud Dataproc 1.2 in the future. In the meantime, you can re-enable the Conscrypt provider when creating a cluster by specifying this Cloud Dataproc property:
--properties
dataproc:dataproc.conscrypt.provider.enable=true
Это необходимо указать при создании кластера, так как это свойство кластера, а не искры. (означает, что искровая структура не может понять это и просто игнорируется.)
Пример использования:
gcloud beta dataproc clusters create my-test
--project my-project
--subnet prod-sub-1
--zone southamerica-east1-a
--region=southamerica-east1
--master-machine-type n1-standard-4
--master-boot-disk-size 40
--num-workers 5
--worker-machine-type n1-standard-4
--worker-boot-disk-size 20
--image-version 1.2
--tags internal,ssh,http-server,https-server
--properties dataproc:dataproc.conscrypt.provider.enable=false
--format=json
--max-idle=10m
а затем начать работу, как это...
gcloud dataproc jobs submit pyspark gs://path-to-script/spark_full_job.py
--cluster=my-test
--project=my-project
--region=southamerica-east1
--jars=gs://path-to-driver/mssql-jdbc-6.4.0.jre8.jar
--format=json -- [JOB_ARGS]