誰かがデフォルトのmuninグラフの「ユースケース」を説明できますか?


9

muninをインストールすると、デフォルトのプラグインセットがアクティブになります(少なくともubuntuでは)。または、単に実行munin-node-configureして、システムでサポートされているプラ​​グインを特定することもできます。これらのプラグインのほとんどは、単純なデータをプロットします。私の質問はありません(一部のも...多分)データの性質を説明するのではなく、それはあなたがこれらのグラフに探していることでしょうか?

muninをインストールして、派手なグラフを表示するのは簡単です。しかし、グラフがあり、それらを「読み取る」ことができないと、グラフはまったく役に立たなくなります。

私のシステムではデフォルトで有効になっている標準プラグインをリストします。だから、それは長いリストになるでしょう。完全を期すために、理解したいと考えているプラ​​グインをリストし、それが何に使用されていると思うかについて簡単に説明します。私がそれらのいずれかと間違っている場合は、喜んでください。

この質問を3つの部分に分けてみましょう。

  • データさえわからないプラグイン
  • データは理解しているが、何に注意すべきかわからないプラグイン
  • 理解できると思うプラグイン

データさえわからないプラグイン

これらには、必ずしもムニンだけを対象としたものではない質問が含まれている場合があります。データを理解しないことは、通常、オペレーティングシステム/ハードウェアに関する基本的な知識にギャップがあることを意味します。

これらは、何が起こっているのかを推測できるだけのプラグインです...これらの「推測」を見たくはありません...

  • デバイスあたりのディスクIO(IO /秒)
    IOとは何ですか。私はそれが入力/出力を表すことを知っています。しかし、それはそれが行くところです。
  • デバイスあたりのディスクレイテンシ(平均IO待機)
    「IO待機」とは何の手掛かりではない...
  • IOサービス時間
    これは大きな混乱であり、グラフに何かを表示することはほとんど不可能です。

データは理解しているが、何に注意すべきかわからないプラグイン

  • IOStat(ブロック/秒読み取り/書き込み)
    私は、ここで注意すべきことはスパイクだと思いますか?これは、デバイスが頻繁に使用されていることを意味しますか?
  • 利用可能なエントロピー(バイト)
    これは乱数生成に重要だと思いますか?なぜこれをグラフ化するのですか?これまでのところ、値は常にほぼ一定でした。
  • VMStat(実行中/ I / Oスリーププロセス)
    このプロセスと「プロセス」グラフの違いは何ですか?どちらも実行中/スリープ中のプロセスを示していますが、「プロセス」グラフには詳細が表示されているようです。
  • デバイスあたりのディスクスループット(バイト/秒の読み取り/
    書き込み)これと「IOStat」グラフの違いは何ですか?
  • inodeテーブルの使用法
    このグラフで何を探す必要がありますか?

理解できると思うプラグイン

私はここでいくつかのことを推測します...間違っている場合は修正してください。

  • ディスク使用率(%)
    使用されている/残っているディスク容量。これは100%に近づいているので、パーティションのクリーンアップまたは拡張を検討する必要があります。これはルートパーティションにとって非常に重要です。
  • ファイアウォールスループット(パケット/秒)
    ファイアウォールを通過するパケットの数。これが長期間スパイクしている場合は、DOS攻撃の兆候である可能性があります(または単に大きなファイルを受信して​​いるだけです)。また、ファイアウォールのパフォーマンスに関する情報も得られます。それが横ばいになり、より多くの「パワー」が必要な場合は、ロードバランシングを検討する必要があります。それが横ばいになり、CPU負荷との相関が見られる場合は、ハードウェアの速度が十分でないことも意味している可能性があります。ディスク使用量との相関は、FW構成での過剰なLOGターゲットを示している可能性があります。
  • eth0エラー(パケットイン/アウト)
    ネットワークエラー。この値が増加している場合は、ハードウェアに障害がある可能性があります。
  • eth0トラフィック(ビット/秒イン/アウト)
    生のネットワークトラフィック。これはファイアウォールのスループットと相関があるはずです。
  • スレッド数
    増加する値は、プロセスがスレッドを適切に閉じていないことを示している可能性があります。調べろ!
  • processes
    アクティブなプロセス(スリープを含む)の内訳。ここでの急激なスパイクは、フォーク爆弾を示している可能性があります。ゆっくりではあるが増加し続ける値は、アプリケーションがサブプロセスを生成しているが適切に閉じていないことを示している可能性があります。を使用して調査しps fauxます。
  • プロセスの優先順位
    これは、プロセスの優先順位の分布を示します。優先度の高いプロセスのみを使用することはあまり役に立ちません。一部の優先順位を下げることを検討してください。
  • cpuの使用法
    かなり簡単です。これが急上昇している場合は、攻撃が続いているか、プロセスがCPUを独占している可能性があります。Idfはゆっくりと増加し、通常の操作では最大に近づいています。ハードウェアのアップグレード(または負荷分散)を検討する必要があります。
  • file table usage
    アクティブに開いているファイルの数。これが最大に達している場合は、プロセスが開いている可能性がありますが、ファイルが適切に解放されていません。
  • 負荷平均
    システム負荷の要約値を表示します。CPU使用率と相関する必要があります。増加する値は、さまざまなソースから発生する可能性があります。他のグラフとの相関を探します。
  • メモリ使用量メモリ
    のグラフィック表現。未使用の+キャッシュ+バッファーがたくさんある限り、問題ありません。
  • スワップイン/アウト
    スワップパーティションのアクティビティを表示します。これは常に0でなければなりません。これに関するアクティビティが表示される場合は、マシンにメモリを追加する必要があります。

素晴らしい質問です。Cactiや他のグラフアプリに簡単に適用できます。グラフは見栄えがよくなりますが、グラフの意味を理解するのはかなり難しく、さらに注意が必要なものはどのように見えるかを理解することは困難です。
dunxd 2011年

2
「なぜこれをグラフ化するのか?これまでのところ、値は常にほぼ一定でした。」一部では、ほとんどの情報は通常、問題が発生した場合にのみ価値があることに注意してください。
Steve Schnepp、

回答:


11

デバイスあたりのディスクIO(IO /秒)

従来のハードドライブでは、これは非常に重要な数です。I / O操作は、ディスクへの読み取りまたは書き込み操作です。回転スピンドルを使用すると、ディスク速度とその使用パターンに応じて、毎秒数十からおそらく200 IOPSを回避できます。

これだけではありません。最近のオペレーティングシステムには、複数のI / O要求を1つにマージし、高速化するI / Oスケジューラがあります。また、RAIDコントローラなどは、スマートI / O要求の並べ替えを実行します。

デバイスあたりのディスク遅延(平均IO待機)

個々のディスクへのI / O要求を実行してから実際にそこからデータを受信するまでにかかった時間。これが数ミリ秒程度ホバリングした場合、問題ありません。数十ミリ秒の場合は、ディスクサブシステムが発汗し始め、数百ミリ秒以上の場合は、大きな問題を抱えているか、少なくとも非常に非常に問題があります。遅いシステム。

IOサービス時間

ディスクサブシステム(多くのディスクを含む可能性があります)の全体的なパフォーマンス。

IOStat(ブロック/秒読み取り/書き込み)

1秒あたりに読み書きされたディスクブロックの数。スパイクと平均を探します。平均がディスクサブシステムの最大スループットに近づき始めたら、パフォーマンスのアップグレードを計画するときが来ました。実際には、その時点より前にそのように計画してください。

利用可能なエントロピー(バイト)

一部のアプリケーションは、「真の」ランダムデータを取得します。カーネルは、キーボードとマウスのアクティビティ、多くのマザーボードにある乱数ジェネレーターなどのいくつかのソースから、またはビデオ/音楽ファイル(ビデオエントロピーとオーディオエントロピーはそれを行うことができます)から、その「真の」ランダム性を収集します。

システムのエントロピーが不足すると、そのデータを必要とするアプリケーションは、データを取得するまで停止します。個人的には、過去にこれがCyrus IMAPデーモンとそのPOP3サービスで起こっているのを見てきました。各ログインの前に、長いエントロピー文字列を生成し、エントロピープールを非常に迅速に消費するビジーなサーバー上で。

この問題を回避する1つの方法は、アプリケーションを切り替えてセミランダムデータ(/ dev / urandom)のみを使用することですが、これはこのトピックには含まれていません。

VMStat(実行中/ I / Oスリーププロセス)

以前はこれについて考えていませんでしたが、これはプロセスごとのI / O統計について、または主にそれらが何らかのI / Oを実行しているかどうか、およびそのI / OがI / Oアクティビティをブロックしているかどうか、またはない。

デバイスあたりのディスクスループット(バイト/秒の読み取り/書き込み)

これは、1秒あたりの純粋な読み取り/ 書き込みバイト数であり、多くの場合、変化する可能性があるブロックよりも人間が読み取りやすい形式です。使用されるディスク、使用されるファイルシステム(およびその設定)などにより、ブロックサイズは異なる場合があります。ブロックサイズは512バイトの場合もあれば、4096バイトの場合もあります。

iノードテーブルの使用法

動的なiノード(XFSなど)を持つファイルシステムでは、何もありません。静的なiノードマップ(ext3など)を持つファイルシステムでは、すべて。静的なiノード、巨大なファイルシステム、膨大な数のディレクトリと小さなファイルの組み合わせがある場合、理論上は多くの空き領域が残っているにもかかわらず、そのパーティションにそれ以上ファイルを作成できない状況が発生する可能性があります。空きiノードがない==悪い。


iノードの使用を検討します。私は現在ext4を使用しており、そのグラフのmax-indodesとopen-inodesは非常に接近しています(open:31.11kテーブルサイズ:32.12k)。これにより、約1kのiノードが残ります。システムが新しくインストールされたので、これが問題を示しているとは思いません。ext4はiノードを動的に割り当てていますか?私はそれについてグーグルで何も発見していません...
exhuma

を参照してくださいdf -i。現在のiノードの使用状況が報告されます。ext4にはiノードが修正されています。たとえば、私のFedora 16レポートは私のルートパーティションrootfs 3276800 238083 3038717 8% /
Janne Pikkarainen

うーん...面白い。これは、muninグラフが正しくないことを示唆しています。また、muninグラフが1つの値しか表示しないことに気づきませんでした。役立つために、ファイルシステムごとに1つの値を表示しないでください。参照df -iスクリーンショット(i44.tinypic.com/oixkiq.pngのmuninグラフVS)(i39.tinypic.com/dxl64z.png
exhuma

...グラフの値(25.57k)は、実際にはdf出力にまったく表示されません。
exhuma

さらに調査したところ、muninプラグインopen_inodesがから値を取得していることがわかりました/proc/sys/fs/inode-nr。これはカーネルであり、ファイルシステムの値ではありません。もう少しグーグルで指摘されました:mjmwired.net/kernel/Documentation/sysctl/fs.txt#119そのドキュメントから、制限はで見つかると思いinode-maxます。しかし、このファイルは私のシステムには存在しません。新しいカーネルではこれが適切ではなくなった可能性はありますか?これにより、このグラフをmuninインスタンスから削除できます!
exhuma
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.