サーバーの再起動の原因を特定する


8

VMWare ESXi 5.5を実行しているHP ProLiant DL380p Gen8があります。過去24時間、ランダムに見える間隔で再起動しています。実行中のVMは1つだけで、シャットダウンしてもホストは再起動します。サーバーのメモリまたはディスク領域が不足しておらず、私が知る限り、過熱していません。ログファイルを調べてみましたが、調べるべきことがたくさんあります。

この問題を診断する上で最も重要なステップは何ですか(確認する設定、確認するファイル、問題を示す特定のメッセージ、メモリのプルを開始する必要があるかどうか、これをすべて行う診断CDがあるかどうかなど) ?

これは非常に広範な質問であることを知っています。これを自分の状況にもっと具体的にするために、必要に応じてログファイルを提供できてうれしい。

回答:


9

ここにいくつかの提案があります。

  • ILOが接続および構成されていますか?システムで何が起こっているかを正確に伝えます。ILO4ログを確認してください。

  • システムのIMLログを表示します(ILOまたはvSphereの[ハードウェア]タブから利用可能)

  • クラッシュ中またはPOST時に画面にインジケーターまたはエラーメッセージが表示されますか?

  • HP固有のESXiのインストールを使用していますか(追加のドライバーとツールが含まれています)

  • 実行しているESXiのバージョンとビルド番号は何ですか?

  • 実行している仮想マシンがWindows 2012または2008ゲ​​ストである場合、NICドライバーのバグが発生している可能性があります

  • 電源接続を確認してください。デュアル電源はありますか?電源ケーブルを1本ずつ取り付け直します。

  • サーバーの前面にあるSystem Insight LEDアレイを見て、内部のヘルス問題があるかどうかを判断します。

ここに画像の説明を入力してください


2
また、ベンダーにサポートを依頼してください。自分自身を調査するのにある程度の時間を費やすことができますが、これが重要なサーバーである場合は、サポート契約の下にある必要があります。
mfinni 14

私はILOをセットアップしていませんでした。提案をありがとうございました。セットアップが完了したら、ログを確認したところ、これが見つかりましたSystem Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C)。すぐに修正します。
なちと2014

これは、サーバールームまたは環境の温度が高すぎることを意味します。これにより、上の画像の温度LEDが赤く点灯します。このサーバーをいつ展開したかに応じて、システムでファームウェアの更新を実行することもできます。
ewwhite 2014

部屋自体がクールな72Fなので、別のラックからの排気がこのマシンの吸気口に近すぎることが原因だと思います。マシンが再起動したときに目が離せなかったとき、OverTempフラッシュがほんの一瞬だけ見えました。私間違った瞬間に点滅した場合の前に、あなたは完全にそれを見逃すことは決してのこぎり驚いていない
nachito

3
@nachito ILOとサーバーが、この温度条件などのヘルスアラートをメールで送信できることを知っているといいのですが
。– ewwhite
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.