ご挨拶、
分散監視システムに関する集団の意見と見解を尋ねたいのですが、何を使用し、どのボックスが私のボックスにチェックマークを入れるのかを知っていますか?
要件は非常に複雑です。
単一障害点はありません。本当に。私は真剣です!「マスター」と「ワーカー」の両方の単一/複数ノード障害に耐えられる必要があり、監視場所(「サイト」)に複数のノードが存在しないか、同じネットワーク上にあると想定できます。したがって、これはおそらく、DRBDやキープアライブなどの従来のHA技術を排除します。
分散ロジック、複数のネットワーク、複数のデータセンター内、複数の大陸に5つ以上のノードを展開したいと思います。顧客の視点からのネットワークとアプリケーションの「鳥の目」ビュー、50以上のノード、さらには500以上のノードがある場合でも、監視ロジックが動かなくなることのないボーナスポイントが必要です。
球場の数値では1500〜2500のホストとホストあたり30のサービスを想定しているため、かなり合理的な数のホスト/サービスチェック、la Nagiosを処理できる必要があります。監視ノードを追加することで比較的直線的にスケーリングできるようになり、5年後には5000ホストとホストあたり40サービスを監視できるようになると思います。上記の「分散ロジック」についてのメモに追加して、次のように言ってください。
- 通常の状況では、これらのチェックは監視ノードの$ nまたはn%で実行する必要があります。
- 障害が検出された場合、ノードの別の$ nまたはn%でチェックを実行し、結果を相関させてから、それらを使用して、アラートを発行する基準が満たされているかどうかを判断します。
グラフと管理しやすい機能。SLAを追跡し、「高可用性」アプリケーションが24時間365日稼働しているかどうかを知る必要があります。理想的には、提案されたソリューションは最小限の労力で「箱から出して」報告する必要があります。
オーダーメイドチェックを開発するための堅牢なAPIまたはプラグインシステムが必要です。
アラートについて賢明である必要があります。1つの監視ノードがコアルーターがダウンしていることを認識していることを(SMSを介して、午前3時に!)必ずしも知りたくありません。私はないそれらの定義された割合があれば知りたい同意何かファンキーが起こっていること。)基本的に私はおよそここで話していることは、「定足数」の論理、または分散狂気への正気のアプリケーションです!
私は商用とオープンソースの両方のオプションを検討したいと思いますが、数百万ポンドかかるソフトウェアを避けたいと思います:-)また、これらすべてのボックスをチェックするものが何もないかもしれないことを受け入れます集団にそれを尋ねたかった。
ノードとその配置を監視することを考えるとき、これらのほとんどはランダムISPネットワーク上の専用サーバーであり、そのため主に私の制御範囲外になることに留意してください。BGPフィードやその他の複雑なネットワークのふるまいに依存するソリューションはおそらく適切ではありません。
また、Nagios、Zabbix、友人など、過去のほとんどのオープンソースのフレーバーを評価、展開、または頻繁に使用/カスタマイズしたことも指摘しておく必要があります。特に、私の質問で説明されているロジックと「インテリジェント」アラートに関して。
必要な点を明確にしてください。乾杯のみんなとギャル:-)