タグ付けされた質問 「monitoring」

マシン、システム、ネットワークを監視して問題を発見し、管理者に通知するアプリケーションまたはアプライアンス。


7
巧妙なnagiosアラートメソッド
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 私たちはNagiosを使用しており、何かが発生するとSMSを受信します。他の多くのシステム管理者もテキストを受け取ります。しかし、人々がnagiosアラートを受け取っている他の賢い/クールな方法はありますか?

5
ポートが開いているかどうかを確認するための同等のping
ポートが一貫して生きているかどうかを確認するにはどうすればよいですか?たとえば、私は ping 192.168.1.1 -t > results.txt これにより、192.168.1.1に継続的にpingが送信され、監視できるようになります。 これに使用できる同等のツールまたはコマンドはありますか? 現在私はtelnetを使用していますが、ホストが切断することもあります。Windowsソリューションが必要です。


4
logstashを監視するのに最適な方法は?
この質問をメーリングリストで何度か見ましたが、満足のいく答えがありませんでした。 パイプラインがスタックしていないことを監視するのに最適な方法はどれですか。クライアント-> logstash-> elasticsearch。 Logstash、特にelasticsearchはリソース不足の傾向があります。彼らはどちらも、中断したところから再開するのは素晴らしいですが、人々はウォッチャーをどのように見ていますか? 意見を歓迎します。

2
データを送信しても、グラファイトですべてのデータポイントに「なし」と表示される
nginxとPostgresSQLを使用してPuppet(https://forge.puppetlabs.com/dwerder/graphite)からGraphiteをインストールしました。データを手動で送信すると、メトリックが作成されますが、そのデータポイントはすべて「なし」(別名null)です。これは、Graphiteに付属のexample-client.pyを実行した場合にも発生します。 echo "jakub.test 42 $(date +%s)" | nc 0.0.0.0 2003 # Carbon listens at 2003 # A minute or so later: $ whisper-fetch.py --pretty /opt/graphite/storage/whisper/jakub/test.wsp | head -n1 Sun May 4 12:19:00 2014 None $ whisper-fetch.py --pretty /opt/graphite/storage/whisper/jakub/test.wsp | tail -n1 Mon May 5 12:09:00 2014 None $ whisper-fetch.py --pretty …


3
NagiosはWAN上の「監視」が理想的ですか?
新しい会社で始まったばかりで、私の最初の仕事の1つは、社内監視システムの代替品を探すことです。 現在のソリューションは、WANを介してさまざまなデバイスをチェックする.Netアプリケーションです(24時間365日のサポート/「メンテナンス」を提供するITコンサルティング会社であるため)。デバイスは、ルーター、スイッチ、プリンターからMSサーバーやサービスまで多岐にわたります。 サイト上の無数の投稿を読んで広範囲にグーグルした後、ある種のNagios / Muninミックスが進むべき道であるというコンセンサスがあるようです。 これは私に私の質問をもたらします: A)Nagiosサーバーを社内でローカルに実行し、WANを介してさまざまな外部サイトを監視することは可能ですか?(ほとんどのサイトは比較的小さく(10〜25のホスト)、サイトの数は非常に多い(75〜100)ため、各サイトにローカルのNagiosサーバーは必要ありません)。 B)その場合、エージェントはどのようにNagiosバックエンドに連絡しますか?SSH経由ですか?HTTP? C)WANリンク障害の影響を受けやすいという事実は別として、そのようなソリューションの直接的な欠点は何でしょうか? どんなフィードバックでも歓迎されます、そして、私は業界にまったく新しいとして誤解について前もって謝罪します。

4
Nagiosリモートモニタリング:NRPE対。SSH
Nagiosを使用して、かなりの数(〜130)のサーバーを監視しています。各サーバーでCPU、ディスク、RAM、その他いくつかのことを監視します。私は常にリモートコマンドを実行するためにSSHを使用してきました。リモートサーバーに追加の構成をほとんどまたはまったく必要としないからです。nagios-pluginsをインストールしてnagiosユーザーを作成し、SSHキーを追加するだけです。シェルスクリプト。NRPE経由でSSHを使用することによるパフォーマンスへの影響を実際に検討したことはありません。 Nagiosサーバーへの負荷ヒットについてはそれほど気になりません(おそらくそれが何をするかについては仕様が過剰であり、CPUが10%を超えることはありません)、各リモートチェックを30秒ごとに実行し、各サーバーには5つの異なるチェックがあります実行されました。SSHはチェックごとにより多くのリソースを必要とすると思いますが、大きな違いはありますか?(つまり、NRPEへの切り替えを保証するのに十分な違い)。 それでも問題がなければ、物理サーバー(通常は8、12、または16の物理コア)とAmazon EC2中/大規模インスタンスの混合を監視します。

1
大きなクラスターでNagiosの依存関係を管理する方法は?
私は依存関係のない非常に大きなnagios構成(約4000サービス)を使用しています。これにより、何か問題が発生したときに大量の通知が発生します。 Nagios Dependenciesを使用してベストプラクティスを探しますが、Webで見つけたのは、1つの例を使用した基本的な理解だけです。私が必要としているのは、より深い情報、そのような設定ファイルを管理する方法のベストプラクティスです。 例:Apacheサーバーがそれぞれリッスンしている100台のサーバーのクラスターで、Apacheプロセスの数とリッスンするTCPポート80を監視しています。一方をもう一方に依存させたいのですが、dependent_hostgroup_nameはそのトリックを実行しませんすべての「チェックプロセス」サービスは、各「check_http」サービスに依存します。 質問は次のとおりです。依存関係をどのように管理しますか?スクリプトを使用して生成しますか?

5
muninをよりスケーラブルなものに置き換える必要がある[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? サーバー障害のトピックになるように質問を更新します。 5年前休業。 私は長年複数のサーバーでmuninを使用して大きな成功を収めてきましたが、100を超えるmunin-nodeでクライアントに負荷がかかると、処理がタイムアウトします。 cronジョブとクライアントプロセスの数にいくつかのスケーリングの変更を加え、実行中のプラグインの数などを減らしましたが、よりスケーラブルなアーキテクチャを持つ代替案を探すことにしました。 提案や経験があれば歓迎します。私は基本的に、キャパシティプランニングに使用できるサーバーメトリックと、リソース使用状況の診断に関心があります。(アラート用のnagiosがあります)

2
pingのパブリックホスト
ファイアウォールスクリプトでISPが稼働しているかどうかを判断するには、地理的に分散された信頼できるアドレスをpingする必要があります。 GoogleやAkamaiなどのいくつかの主要なサイトを使用することもできましたが、それは失礼なようです。また、他の多くのサイトがすでに行っているように、ICMPトラフィックのブロックを開始することにした場合はどうでしょうか。 私は彼らがこれで大丈夫だと言って記録に残っているホストを使いたいと思います。多くのパブリックNTPサーバーがサービスを提供する方法である、パブリック「ping」ターゲットとして機能することを申し出たホストはありますか? そのようなホストのリスト、またはラウンドロビンDNSは素晴らしいでしょうが、私はそれがあまりにも多くを求めていると思います...

5
中規模企業のネットワークを監視する方法は?
私は中規模の会社(従業員100人以上)で働いています。発生している問題は、ネットワークパフォーマンス、特にインターネットアクセスです。 約70台以上のコンピューターがあり、Mac OS XとWindows XP&7のマシンが混在しています。複数のサーバーがあります(Exchangeサーバー、PCファイルサーバー、MS SQL、Blackberry、FTP、Macサーバーなど)。サーバールームには、4つのメインスイッチ、SonicWallファイアウォール、およびおそらく数十台のルーターがあり、建物の周囲に分散しています。 ネットワーク構造は長年にわたって有機的に成長しています。そして、私の知る限りでは、監視ソリューションは実際にはありません。ネットワークの問題(低速な接続、パケットのドロップなど)が発生した場合の一般的な解決策は、ハードウェアの電源を入れ直すか、各従業員のところに行き、大きなファイルをアップロード/ダウンロードしているかどうかを尋ねることです。 これは本当に非効率的で時間のかかる作業であり、ネットワークを監視して潜在的な問題に積極的に取り組むことはできません。理想的には個々のコンピューターにまで詳細を伝えながら、会社全体のネットワーク使用状況をリアルタイムで監視できるソリューションを見つけたいと思います。 機器とオペレーティングシステムの寄せ集めを考えると、ある種の監視ソリューションをセットアップするための最良の方法は何でしょうか。ハードウェア、ソフトウェア、ネットワークアーキテクチャの再構築?



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.