Используя sacct
, я хочу получать информацию о выполненных мною работах.
Отвечать упоминает, как мы можем получить информацию о вакансии.
Я отправил название работы jobName.sh
с идентификатором jobID 176. После 12 часов и поступления новых 200 вакансий я хочу проверить информацию о моей работе (jobID = 176), и я получаю slurm_load_jobs error: Invalid job id specified
.
scontrol show job 176
slurm_load_jobs error: Invalid job id specified
И следующая строка ничего не возвращает: sacct --name jobName.sh
Я предполагаю, что существует ограничение по времени для хранения ранее представленной информации о вакансии, которая каким-то образом была удалена. Есть ли для этого предел? Как я могу сделать это ограничение очень большим, чтобы предотвратить их удаление?
Обратите внимание, что JobRequeue=0
находится в slurm.conf.
Предполагая, что вы используете mySQL для хранения этих данных, в файле конфигурации вашей базы данных slurmdbd.conf вы можете настроить, среди прочего, время очистки. Вот несколько примеров:
PurgeJobAfter=12hours
PurgeJobAfter=1month
PurgeJobAfter=24months
Если не установлен (по умолчанию), записи о вакансиях никогда не удаляются.
Подробнее Информация.
Да не декларируйте.
На Документация Slurm упоминалось, что:
MinJobAge The minimum age of a completed job before its record is purged from Slurm's active database. Set the values of MaxJobCount and to ensure the slurmctld daemon does not exhaust its memory or other resources. The default value is 300 seconds. A value of zero prevents any job record purging. In order to eliminate some possible race conditions, the minimum non-zero value for MinJobAge recommended is 2.
В моем файле slurm.conf
MinJobAge
был 300, что составляет 5 минут. Поэтому через 5 минут информация о каждой выполненной работе удалялась. Я увеличил значение MinJobAge
, чтобы предотвратить операцию удаления.
Сказание По умолчанию означает, что
PurgeJobAfter
должен быть отключен, верно?