Выполняя свои искровые задания на google-cloud-dataproc, я замечаю, что используется только главный узел, а загрузка ЦП всех рабочих узлов составляет почти ноль процентов (0,8 процента или около того). Я использовал как графический интерфейс, так и консоль для запуска кода. Знаете ли вы какую-либо конкретную причину, которая может быть причиной этого, и как полностью использовать рабочие узлы?
Я отправляю вакансии следующим образом: Задания gcloud dataproc отправляют spark --properties spark.executor.cores = 10 --cluster cluster-663c --class ComputeMST --jars gs: //kslc/ComputeMST.jar --files gs: //kslc/SIFT_full.txt - - SIFT_full.txt gs: // kslc / SIFT_fu ll.txt 5.0 12
Я использовал оба способа: - 1. Отправил задание через консоль, предоставленную в Google Dataproc. 2. Также с помощью графического интерфейса. Не читает никаких внешних источников. Ниже приводится команда, которую я использую для отправки с помощью консоли. Задания gcloud dataproc отправляют spark --properties spark.executor.cores = 10 --cluster cluster-663c --class ComputeMST --jars gs: //kslc/ComputeMST.jar --files gs: //kslc/SIFT_full.txt - - SIFT_full.txt gs: // kslc / SIFT_fu ll.txt 5.0 12
Спасибо за информацию. Я думаю, что следующим шагом будет использование веб интерфейс для просмотра пользовательского интерфейса Spark Job, чтобы точно выяснить, что он делает. Не является необоснованным, чтобы работа не использовала рабочих для некоторой части ее выполнения.




Не могли бы вы рассказать нам, как вы отправляете свою работу? Вы запускаете spark-submit через SSH или отправляете задание через gcloud / Developers Console? Ваша работа читается из внешних источников? GCS?