古い投稿ではありますが、check_loadのしきい値は初心者にとって頭痛の種であることがわかっていたため、今すぐ返信しています..;)
CPUが5分間70%、10分間60%、15分間50%の場合の警告アラート。CPUが5分間で90%、10分間で80%、15分間で70%の場合、重大なアラート。
*command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7*
CPU負荷に関するすべての調査結果:
「負荷」の意味:ウィキペディアによると:
すべてのUnixおよびUnixライクシステムは、カーネルで3つの「負荷平均」数のメトリックを生成します。ユーザーは、uptimeコマンドを実行することにより、Unixシェルから現在の結果を簡単に照会できます。
$ uptime
14:34:03 up 10:43, 4 users, load average: 0.06, 0.11, 0.09
上記の出力負荷平均から:0.06, 0.11, 0.09
意味(シングルCPUシステム):
- 最後の1分間で、CPUの負荷が6%低下しました
- 最後の5分間で、CPUの負荷が11%低下しました
- 最後の15分間で、CPUの負荷が9%低下しました
。
$ uptime
14:34:03 up 10:43, 4 users, load average: 1.73, 0.50, 7.98
上記の1.73 0.50 7.98
シングルCPUシステムの負荷平均は次のとおりです。
- 最後の1分間に、CPUが73%過負荷になりました(1.73の実行可能なプロセスを備えた1つのCPUであるため、0.73のプロセスがターンを待つ必要がありました)
- 最後の5分間で、CPUの負荷が50%低下しました(プロセスはターンを待つ必要がありませんでした)
- 最後の15分間で、CPUの過負荷が698%(7.98の実行可能なプロセスを備えた1つのCPUであったため、6.98のプロセスはターンを待つ必要がありました)
Nagiosしきい値の計算:
警告とクリティカルを含むNagios CPU Loadセットアップの場合:
y = c * p / 100
どこ:
y = nagios value
c = number of cores
p = wanted load procent
4コアシステムの場合:
time 5 min 10 min 15 min
warning: 90% 70% 50%
critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
シングルコアシステムの場合:
y = p / 100
どこ:
y = nagios value
p = wanted load procent
time 5 min 10 min 15 min
warning: 70% 60% 50%
critical: 90% 80% 70%
command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7
博士ギュンターのことでCPU負荷解析についての素晴らしい白い紙http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf
博士ギュンターがどのように負荷平均を見つけるためにUNIXカーネルにダウン掘りこのオンライン記事で( 「LAトリプレット」)が計算され、キャパシティプランニングのメトリックとしてどれだけ適切か。
standard
またはtested
価値があると思います。予想されるサーバーのワークロードに依存します。高負荷が予想される場合は、値を増やす必要があります。そうしないと、サーバーは常にクリティカル状態になります。