タグ付けされた質問 「job-scheduler」

6
成長するcron:次のスケジューラは何ですか?[閉まっている]
ジョブスケジューリングのすべてのニーズを処理することを忘れない限り、cronを使用しています。ストレージクローン/スナップショットからデータベースに対するレポート、毎日のシステムレポート、監視チェックまで、すべてがcronを介して数百台のサーバーでスケジュールされています。 欠点は非常に明白です:ジョブの管理が難しく、依存関係を作成する簡単な方法がありません(特に異なるサーバー間で)、そしてもちろん、誰かが「一時的に」ジョブをスキップした後でコメントを削除するのを忘れることは避けられません。 私たちは商業的な提供を試みましたが、最終的にはcronからのステップアップとして高すぎると考えられました。 SLURM、Oracle Grid Engine、Torque / Maui、Quartz、DIET、Condorなどの他のオプションがあります。これらのオプションは、任意の数の同様のノードで実行されるジョブを備えた、より大規模で同種のクラスター環境向けです。など。私たちの環境はかなり混合されており(さまざまなLinux、AIX、およびFreeBSD)、さまざまなタイプのシステム間で依存関係を作成する必要があります(たとえば、Linuxボックスのジョブは、AIXボックスのジョブを実行するかどうかを判断する必要がある場合があります)。 cronからより集中管理された製品に移行した経験はありますか?ソフトウェアを選択するためのヒントや、オープンソースと商用のどちらを選択するのが良いのか?

3
秋の時間変更の時間中にスケジュールされたジョブ
他の人がこのシナリオをどのように扱っているのだろうかと思っています。 午前1:30に実行するようにスケジュールされたジョブがある場合はどうなりますか。秋になると、時間が変わると、1:00:00から1:59:59までの時間が繰り返され、ジョブが2回実行されます。 Windowsタスクスケジューラ、SQLエージェント、またはその他のスケジューリングツールを使用できます。これらのツールのほとんどは、UTC時間ではなくマシン時間に基づいているようです。毎晩UTC時間にジョブを実行するように指示した場合、重複した時間の問題は発生しません。

1
組み込みプラグインを使用してSLURMを実行しているクラスターの汎用リソースとしてGPUをリクエストすると失敗するのはなぜですか?
免責事項:すべての関連する構成情報を提供しようとしたので、この投稿はかなり長くなります。 ステータスと問題: 私はgpuクラスターを管理しており、ジョブ管理にslurmを使用したいと考えています。残念ながら、slurmの各汎用リソースプラグインを使用してGPUをリクエストできません。 注:test.shは、環境変数CUDA_VISIBLE_DEVICESを出力する小さなスクリプトです。 でのジョブの実行--gres=gpu:1は完了しません 実行srun -n1 --gres=gpu:1 test.shすると、次のエラーが発生します。 srun: error: Unable to allocate resources: Requested node configuration is not available ログ: gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available でジョブを実行して--gres=gram:500います srun -n1 --gres=gram:500 test.shしかし、私が呼び出すと、ジョブが実行されて印刷されます CUDA_VISIBLE_DEVICES=NoDevFiles ログ: …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.