NagiosはWAN上の「監視」が理想的ですか?


8

新しい会社で始まったばかりで、私の最初の仕事の1つは、社内監視システムの代替品を探すことです。

現在のソリューションは、WANを介してさまざまなデバイスをチェックする.Netアプリケーションです(24時間365日のサポート/「メンテナンス」を提供するITコンサルティング会社であるため)。デバイスは、ルーター、スイッチ、プリンターからMSサーバーやサービスまで多岐にわたります。

サイト上の無数の投稿を読んで広範囲にグーグルした後、ある種のNagios / Muninミックスが進むべき道であるというコンセンサスがあるようです。

これは私に私の質問をもたらします:

A)Nagiosサーバーを社内でローカルに実行し、WANを介してさまざまな外部サイトを監視することは可能ですか?(ほとんどのサイトは比較的小さく(10〜25のホスト)、サイトの数は非常に多い(75〜100)ため、各サイトにローカルのNagiosサーバーは必要ありません)。

B)その場合、エージェントはどのようにNagiosバックエンドに連絡しますか?SSH経由ですか?HTTP?

C)WANリンク障害の影響を受けやすいという事実は別として、そのようなソリューションの直接的な欠点は何でしょうか?

どんなフィードバックでも歓迎されます、そして、私は業界にまったく新しいとして誤解について前もって謝罪します。

回答:


6

WANを介した監視は可能ですが、一般的には理想的ではありません。これは、WANリンクがダウンしたりブリップが発生したりすると、すべてのチェックが失敗し、リモートロケーションで何が起こっているのかが分からなくなるためです。また、レイテンシが増加し、LAN Viewのパフォーマンス測定に役立たなくなりました。そうは言っても、WANリンクに問題が発生したときにアラートが殺到しないように、依存関係を設定する必要があるかもしれません。

私が監視システムとその監視対象サービスとの間の通信を見た最も一般的な方法は、サイト間VPNトンネルを持つことです。その場合、通信はローカルネットワークと同じです。また、NagiosはしばしばPullベースです(そうである必要はありませんが)。したがって、Nagiosは監視するサービスとサーバーに接続しますが、その逆は行いません。

最後に、より理想的なソリューションは、分散監視設定を使用することです。Nagiosの1つのオプションは、http://nagios.sourceforge.net/docs/3_0/distributed.htmlで説明されています。


ローカルサーバーを実行している場合は間違いなく、NRPEを長く検討する必要があります。プロトコルは?それはあなた次第です-おそらく保護する必要がありますが、ssh、stunnel、および従来のVPNがあります
symcbean

どうもありがとう、間違いなく役立つ配布された記事のいくつかの素晴らしい情報。
NmE 2012年

1

それは、あなたが何を監視しているかに依存します。ほとんどの場合、pingチェック、サービスチェック、ディスクチェックなどのみを行っており、nagiosのデフォルトの5分間のチェック時間に固執していると、問題が発生することがわかりません。

繰り返しますが、何をチェックするかは、何を話し合うかによって異なります。Windowsホストをチェックしている場合は、WMIクエリを使用するだけでよく、ボックスでエージェントを実行する必要さえありません。


1

これは確かに、いくつかの異なる方法で可能です。

「分散セットアップ」が問題外の場合は、少なくとも次のいずれかを実行する必要があります。

  1. リモートサイトのすべてのボックスでNagiosにプッシュチェック結果をプッシュする(NSCAを参照)
  2. Nagiosがすべてのリモートサイトのすべてのボックスに到達できるようにファイアウォールの穴を突く
  3. 各サイトで単一のボックスを一種の「Nagiosプロキシ」として指定します

ファイアウォールホールポーキングが最小限で済み、構成も簡単になるため、#3をお勧めします。これは、各サイトに完全なNagiosインスタンスを必要としないという点で、分散セットアップのスリム化されたバージョンのようなものです。

これを行うには、NRPEをセットアップ(またはcheck_by_sshを使用)し、この「プロキシ」にネットワーク上の他のホストに対して他のすべてのチェックを実行させることができます。これには、プロキシに関連して返されるパフォーマンスデータの追加の利点があるため、WANラグの影響を受けません。

また、親/子設定を使用して、リモートサイトのすべてのホストをプロキシの子にして、誤検知の通知を減らすことができます。すべてのサービスをプロキシのcheck_nrpe(またはcheck_ssh)サービスに依存させることもできます。詳細については、ネットワーク到達可能性のドキュメントを参照してください。

どの方法を使用する場合でも、デフォルトのタイムアウトを適切に調整して、WANリンクを通過する際の追加の遅延を考慮することが非常に重要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.