1
組み込みプラグインを使用してSLURMを実行しているクラスターの汎用リソースとしてGPUをリクエストすると失敗するのはなぜですか?
免責事項:すべての関連する構成情報を提供しようとしたので、この投稿はかなり長くなります。 ステータスと問題: 私はgpuクラスターを管理しており、ジョブ管理にslurmを使用したいと考えています。残念ながら、slurmの各汎用リソースプラグインを使用してGPUをリクエストできません。 注:test.shは、環境変数CUDA_VISIBLE_DEVICESを出力する小さなスクリプトです。 でのジョブの実行--gres=gpu:1は完了しません 実行srun -n1 --gres=gpu:1 test.shすると、次のエラーが発生します。 srun: error: Unable to allocate resources: Requested node configuration is not available ログ: gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available でジョブを実行して--gres=gram:500います srun -n1 --gres=gram:500 test.shしかし、私が呼び出すと、ジョブが実行されて印刷されます CUDA_VISIBLE_DEVICES=NoDevFiles ログ: …