H2O в искровом кластерном режиме дает разные прогнозы по сравнению с искровым локальным режимом. H2O в искровом разряде дает лучше, чем искровой кластер, почему это происходит, вы можете мне помочь? Скажите мне, является ли это поведением H2O.
Используются два набора данных. Один для обучения модели, а другой для подсчета очков.
trainingData.csv: 1,8 МБ (количество строк 2211),
testingData.csv: 1,8 МБ (количество строк 2211),
Память драйвера: 1G,
Память исполнителей: 1G,
Количество исполнителей: 1
Следующая команда используется в кластере: =>
nohup /usr/hdp/current/spark2-client/bin/spark-submit --class com.inn.sparkrunner.h2o.GradientBoostingAlgorithm --master yarn --driver-memory 1G --executor-memory 1G --num-executors 1 --кластер режима развертывания spark-runner-1.0.jar > tool.log и
1) Основной метод
public static void main(String args[]) {
SparkSession sparkSession = getSparkSession();
H2OContext h2oContext = getH2oContext(sparkSession);
UnseenDataTestDRF(sparkSession, h2oContext);
}
2) контекст h2o создается.
private static H2OContext getH2oContext(SparkSession sparkSession) {
H2OConf h2oConf = new H2OConf(sparkSession.sparkContext()).setInternalClusterMode();
H2OContext orCreate = H2OContext.getOrCreate(sparkSession.sparkContext(), h2oConf);
return orCreate;
}
3) сеанс искры создается.
public static SparkSession getSparkSession() {
SparkSession spark = SparkSession.builder().appName("Java Spark SQL basic example").master("yarn")
.getOrCreate();
return spark;
}
4)Настройка параметров GBM.
private static GBMParameters getGBMParam(H2OFrame asH2OFrame) {
GBMParameters gbmParam = new GBMParameters();
gbmParam._response_column = "high";
gbmParam._train = asH2OFrame._key;
gbmParam._ntrees = 10;
gbmParam._seed = 1;
return gbmParam;
}
H2O всегда работает в кластерном режиме, даже если только одна машина, например localhost, находится в кластере. Можете ли вы предоставить дополнительную информацию о конфигурации (память, количество машин, количество ядер на каждой машине) двух сравниваемых кластеров, а также о том, насколько велики ваши данные? И какова метрическая оценка для этих двоих? Различается ли он случайным образом запускать для запуска, или один кластер всегда лучше, чем другой? (Это связано с вопросом Эрин о закладке семени.)
@ErinLeDell, используется ли начальный параметр в режиме искрового кластера алгоритма GBM (газированная вода), дающий разные прогнозы от локального режима искры. почему это происходит, вы можете мне помочь? предыдущие два моих комментария к этой проблеме покажут, как я запускаю код.
@poojanavin Можете ли вы отредактировать свой вопрос, включив в него содержание ваших комментариев - его будет легче читать, поэтому у вас больше шансов получить ответ. Я бы также включил версии H2O двух настроек (если они разные, это может быть объяснением).
@DarrenCook Как вы сказали, я отредактировал свой вопрос
Вы установили одно и то же семя в обоих случаях?