サーバー管理者 hpc

組み込みプラグインを使用してSLURMを実行しているクラスターの汎用リソースとしてGPUをリクエストすると失敗するのはなぜですか？

免責事項：すべての関連する構成情報を提供しようとしたので、この投稿はかなり長くなります。ステータスと問題：私はgpuクラスターを管理しており、ジョブ管理にslurmを使用したいと考えています。残念ながら、slurmの各汎用リソースプラグインを使用してGPUをリクエストできません。注：test.shは、環境変数CUDA_VISIBLE_DEVICESを出力する小さなスクリプトです。でのジョブの実行--gres=gpu:1は完了しません実行srun -n1 --gres=gpu:1 test.shすると、次のエラーが発生します。 srun: error: Unable to allocate resources: Requested node configuration is not available ログ： gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available でジョブを実行して--gres=gram:500います srun -n1 --gres=gram:500 test.shしかし、私が呼び出すと、ジョブが実行されて印刷されます CUDA_VISIBLE_DEVICES=NoDevFiles ログ： …

10 cluster hpc job-scheduler

ユーザーがLinuxで他のユーザーにファイルを転送できるようにする方法

20コンピューティングノードから98,000コンピューティングノードまで、サイズが約40のクラスター上で数千人のユーザーがアプリケーションを実行している環境があります。これらのシステムのユーザーは、従来のUNIXアクセス許可によって制御される大容量ファイル（1PBを超える場合もあります）を生成します（ファイルシステムの特殊な性質のため、ACLは通常、利用できないか、実用的ではありません）。現在、「give」と呼ばれるプログラムがあります。これは、グループの権限が不十分な場合に、ユーザーが別のユーザーにファイルを「与える」ことができるsuid-rootプログラムです。したがって、ユーザーは次のように入力してファイルを別のユーザーに提供します。 > give username-to-give-to filename-to-give ... 受信側のユーザーは、「take」（giveプログラムの一部）と呼ばれるコマンドを使用してファイルを受信できます。 > take filename-to-receive 次に、ファイルの権限が受信ユーザーに効果的に転送されます。このプログラムは何年も前から存在しており、セキュリティと機能の観点から再検討したいと思います。私たちの現在の行動計画は、「ギブ」の現在の実装のビット腐敗を取り除き、それを本番環境に再デプロイする前にオープンソースアプリとしてパッケージ化することです。従来のUNIXアクセス許可しか利用できない場合に、ユーザー間で非常に大きなファイルを転送するために使用する別の方法はありますか？

10 linux filesystems hpc

タグ付けされた質問 「hpc」

タグ付けされた質問「hpc」