Condor、OGE、Torqueはすべてあなたをそこに連れて行くことができますが、CondorだけがDAGManツールを備えた組み込みの依存関係管理を持っています。DAGManを使用すると、ワークフローを説明する有向非循環グラフを設定でき、マネージャーがワークフロー内のジョブを移動し、フローの各ステップで合否結果を評価します。Condorは比較的プラットフォームに依存しないため、DAGManも同様であり、LinuxまたはWindowsで親が実行された場合、AIXで1つの子ステップを実行できます。DAGManはジョブの実行場所に関係なく、終了コードが成功または失敗するだけです。
ソフトウェアを選択するためのヒントや、オープンソースと商用のどちらを選択するのが良いのか?
いくつかの注意事項がありますが、このスペースの無料コミュニティは一見の価値があります。
OGEは今、奇妙な空間にいます。オラクルが製造したGEバリアントを実行することはもはや無料ではなく、オラクルはもはやGE SCCに書き戻すコードを提供していませんが、フリーのオープンソースプロジェクトとして戦おうとしているコードのいくつかの分岐が存在します。特にユニバは、サンの元GE開発者を雇い、オープンソースの無料で入手可能なGEバリアントの開発を続けています。Grid Engineには2つのことがあります。セットアップが簡単で、短い実行時間(<2分)のジョブを処理でき、スループットを低下させる大量のスケジューリングオーバーヘッドをジョブに与えることができません。大きな欠点は、Windowsのサポートがあまり良くないことです。私たちの中には、何年も前にCygwinで実行するために移植するためにいくらかの努力をしましたが、確かにネイティブほど良いものではありません。
今、コンドルはあなたが言及した3つの技術の中で私のお気に入りです。Condorには強力なコミュニティがあり、ソフトウェアは非常に成熟しています(現在20歳以上)。ネイティブのWindowsおよびPOSIX OSのサポートにより、あらゆる場所で非常にうまく動作します。前述のDAGManは、Condorに付属している多くの素晴らしい作品の1つにすぎません。設定するのは複雑な作業ですが、一度実行すると動作が安定します。ジョブ<->マシンマッチングを実行し、リソースの使用ルールを構築するための非常に柔軟な言語を備えています。また、マシンでの動的なプロビジョニングもサポートしており、ジョブが必要とするマシンリソースの量を選択してから、差異がまだ利用可能であることを再通知します。グローバルライセンスカウンターをサポートしているため、ソフトウェアライセンスなどを制限できます。そしてもちろん、ワークフロー管理のための非常に強力なツールであるDAGManがあります。Condorの欠点は、短時間実行されるジョブのスケジューリングのオーバーヘッドが負担になることです。理想的には2分より長く実行されるジョブが必要です。そうしないと、システムでのスケジューリングがジョブの時間の大きな部分になり始めます。
トルクはもう少しニッチです。私はそれについてあまり知りません。CondorよりもGrid Engineに匹敵します。@warrenが言及した有料のアドオンがあり、基本的な無料のTorqueでできることを拡張できます。
3つのテクノロジーを試して、特定のワークロードでどのように機能するかを確認したい場合、CycleCloudは、Condor、GridEngine、またはTorqueで事前に構成された安全な仮想化プールをスピンアップできます。あなたの側で。各テクノロジーの小さなプールをスピンアップし、代表的なワークロードで試してみると数ドルになります。(免責事項:私はCycle Computingで働いており、CycleCloudを作成しています)