check_loadに使用する警告とクリティカルの値は何ですか?


13

現在、私はこれらの値を使用しています:

# y = c * p / 100
# y: nagios value
# c: number of cores
# p: wanted load procent

# 4 cores
# time        5 minutes    10 minutes     15 minutes
# warning:    90%          70%            50%
# critical:   100%         80%            60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4

しかし、これらの値はほとんどランダムに選択されています。

誰かがテストされた値を持っていますか?


2
NO standardまたはtested価値があると思います。予想されるサーバーのワークロードに依存します。高負荷が予想される場合は、値を増やす必要があります。そうしないと、サーバーは常にクリティカル状態になります。
ハレド

はい、それが私の問題です。私は常に重要な通知を受け取ります。すべてを3倍する必要がありますか?
サンドラ

回答:


9

Linuxのロードは実際には簡単です。各負荷平均値は、すべてのコアの平均負荷の合計です。すなわち。

 1 min load avg = load_core_1 + load_core_2 + ... + load_core_n
 5 min load avg = load_core_1 + load_core_2 + ... + load_core_n
15 min load avg = load_core_1 + load_core_2 + ... + load_core_n

ここで0 < avg load < infinity

したがって、4コアサーバーで負荷が1の場合、各コアが25%使用されているか、1つのコアが負荷下で100%であることを意味します。4の負荷は、4つのコアすべてが100%の負荷の下にあることを意味します。4を超える負荷は、サーバーがより多くのコアを必要とすることを意味します。

check_load 今持っています

 -r, --percpu
    Divide the load averages by the number of CPUs (when possible)

つまり、使用する場合、サーバーは1つのコアだけを持っていると考えることができるため、コアの数を考慮せずに割合を直接書き込むことができます。-r警告およびクリティカルの間隔になり0 <= load avg <= 1。すなわち。サーバーごとに警告値と重要な値を変更する必要はありません。

OPには、間隔に5,10,15があります。それは間違いです。1,5,15です。


27

古い投稿ではありますが、check_loadのしきい値は初心者にとって頭痛の種であることがわかっていたため、今すぐ返信しています..;)

CPUが5分間70%、10分間60%、15分間50%の場合の警告アラート。CPUが5分間で90%、10分間で80%、15分間で70%の場合、重大なアラート。

*command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7*

CPU負荷に関するすべての調査結果:

「負荷」の意味:ウィキペディアによると:

すべてのUnixおよびUnixライクシステムは、カーネルで3つの「負荷平均」数のメトリックを生成します。ユーザーは、uptimeコマンドを実行することにより、Unixシェルから現在の結果を簡単に照会できます。

$ uptime
14:34:03 up 10:43,  4 users,  load average: 0.06, 0.11, 0.09

上記の出力負荷平均から:0.06, 0.11, 0.09意味(シングルCPUシステム):

  • 最後の1分間で、CPUの負荷が6%低下しました
  • 最後の5分間で、CPUの負荷が11%低下しました
  • 最後の15分間で、CPUの負荷が9%低下しました

$ uptime
14:34:03 up 10:43,  4 users,  load average: 1.73, 0.50, 7.98

上記の1.73 0.50 7.98シングルCPUシステムの負荷平均は次のとおりです。

  • 最後の1分間に、CPUが73%過負荷になりました(1.73の実行可能なプロセスを備えた1つのCPUであるため、0.73のプロセスがターンを待つ必要がありました)
  • 最後の5分間で、CPUの負荷が50%低下しました(プロセスはターンを待つ必要がありませんでした)
  • 最後の15分間で、CPUの過負荷が698%(7.98の実行可能なプロセスを備えた1つのCPUであったため、6.98のプロセスはターンを待つ必要がありました)

Nagiosしきい値の計算:

警告とクリティカルを含むNagios CPU Loadセットアップの場合:

y = c * p / 100

どこ: y = nagios value c = number of cores p = wanted load procent

4コアシステムの場合:

time      5 min  10 min    15 min
warning:  90%    70%       50%
critical: 100%   80%       60%

command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4

シングルコアシステムの場合:

y = p / 100

どこ: y = nagios value p = wanted load procent

time       5 min  10 min    15 min
warning:   70%    60%       50%
critical:  90%    80%       70%

command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7

博士ギュンターのことでCPU負荷解析についての素晴らしい白い紙http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf 博士ギュンターがどのように負荷平均を見つけるためにUNIXカーネルにダウン掘りこのオンライン記事で( 「LAトリプレット」)が計算され、キャパシティプランニングのメトリックとしてどれだけ適切か。


2
時間は1,5
分と

3

問題のサーバーに非同期ワークロードがあり、キューの深さが管理する重要なサービスメトリックである場合を除き、正直なところ、負荷平均を監視する価値さえありません。これは、サービス時間(サービス時間、サービス時間)などの重要なメトリックからの注意散漫です。


2

Nagiosは、MuninやCactiのようなツールでもあり、サーバーで発生しているさまざまな種類のワークロードをグラフ化できます。load_average、cpu使用率、disk ioなどです。

この情報を使用すると、Nagiosで適切なしきい値を簡単に設定できます。


1

システムのパフォーマンスに影響する負荷平均を知っていますか?前回の仕事では、一貫して負荷平均35〜40のサーバーがありましたが、依然として応答していました。これは、正確な数値を得るためにちょっとした探偵の仕事をしなければならない測定です。

代わりに、SSHまたはhttpの平均接続時間など、システム上の他のいくつかのメトリックを測定することもできます。これは、システムの負荷をより適切に示す指標になる可能性があります。


2
例えば35の負荷平均は実際にはどういう意味ですか?CPUコアの数は数に違いがありますか?
サンドラ

0

Invent Sekarの答えを拡張するには:check_loadとパーセンテージを使用する場合、「-r」コマンドライン引数が他のものとともに必要になると思います。

例えば:

command[check_load]=/usr/local/nagios/libexec/check_load -r -w 0.7,0.6,0.5 -c 0.9,0.8,0.7
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.