HP ProLiant DL360 G7が「電力と熱のキャリブレーション」画面でハングする


41

再現が困難な問題を示している新しいHP ProLiant DL360 G7システムがあります。サーバーがランダムにハング進行中の消費電力と温度校正...時の画面POSTプロセス。これは通常、インストールされたオペレーティングシステムからのウォームブート/リブートの後に続きます。

ここに画像の説明を入力してください

この時点でシステムは無期限に停止します。ILO 3の電源制御を介してリセットまたはコールドスタートを発行すると、システムは問題なく正常に起動します。

システムがこの状態にあるとき、ILO 3インターフェイスは完全にアクセス可能であり、すべてのシステムヘルスインジケータは正常です(すべて緑色)。サーバーは、PDUへの電源接続を備えた温度管理されたデータセンターにあります。周囲温度は64°F / 17°Cです。システムは、展開する前に24時間コンポーネントテストループに置かれ、障害はありませんでした。

このサーバーのプライマリオペレーティングシステムはVMWare ESXi 5です。最初に5.0を試し、その後5.1ビルドを試しました。どちらもPXEブートとキックスタートを介して展開されました。さらに、ベアメタルWindowsおよびRed Hat Linuxインストールでテストしています。

HP ProLiantシステムには、包括的なBIOSオプションのセットがあります。Static高性能プロファイルに加えて、デフォルト設定を試しました。起動スプラッシュ画面を無効にし、上記のスクリーンショットではなく、その時点で点滅するカーソルを取得しました。また、BIOS設定用に VMWareの「ベストプラクティス」をいくつか試しました。私たちは見てきた同様の問題を概説しているようだHPからの助言を、私たちの特定の問題を解決しませんでした。

ハードウェアの問題を疑って、ベンダーに同じシステムを同日配送用に送ってもらいました。新しいサーバーは、ディスクを除いて完全に同一のビルドでした。ディスクを古いサーバーから新しいサーバーに移動しました。交換ハードウェアで同じランダムブートの問題が発生しました。

現在、両方のサーバーを並行して実行しています。この問題は、ウォームブートでランダムに発生します。コールドブーツには問題がないようです。Turbo Boostを無効にしたり、電力較正機能を完全に無効にしたりするなど、より難解なBIOS設定のいくつかを検討しています。私はこれらを試すことができましたが、必要ではないはずです。

何かご意見は?

-編集-

システムの詳細:

  • DL360 G7-2 x X5670 Hex-Core CPU
  • 96 GBのRAM(12 x 8 GB低電圧DIMM)
  • 2 x 146GB 15k SASハードドライブ
  • 2 x 750W冗長電源

ProLiant DVDリリース用の最新のHP Service Packの時点でのすべてのファームウェア。

HPに電話してinterwebzをトロールして、ILO 3の不適切な相互作用について言及しましたが、これは物理コンソール上のサーバーでも発生します。HPは電源も推奨しましたが、これは他の実稼働システムに正常に電力を供給するデータセンターラックにあります。

これが、低電圧DIMMと750W電源装置との相互作用が不十分になる可能性はありますか?このサーバーサポートされている構成である必要があります。


2
考えられる原因としてディスクを排除する方法はありますか?いくつかの代替SASまたはSATAディスクでテストできる可能性はありますか?
アーニーザギーク

はい、2番目のシステムで正常であることがわかっているディスクのセットでテストしました。それらは並行して実行されています。
ewwhite

1
これを目にしたのは、HP以外のカードを使用してストレージを提供しようとしたシステム(DL360 G7)のみでした。SmartArrayカードとこのもう1枚のカードの両方が入っていたとき、それができました。どちらかを取り出したとき、合格しました。これはあなたの問題ではありませんが、私が遭遇したことを伝えます。
sysadmin1138

1
ネットワーク関連の可能性がありますか?ネットワークに接続せずに複製を試みてください。
アーニーザギーク

1
@TheCleaner動的消費電力上限を無効にすることは、G7サーバーではオプションではありません。Gen8 ProLiantシリーズ用に導入されました。
ewwhite

回答:


43

そのため、3番目のシステムを導入し、同じ問題が発生した後、環境に疑問を持ち始めました。HP ProLiantサーバートラブルシューティングガイドのコピーを掘り下げたところ、以下に示すPOSTの問題のフローチャートが見つかりました。

ここに画像の説明を入力してください

チャートの手順を注意深く実行すると、すべてのサーバーに共通する1つは、データセンターのクラッシュカートに接続されたKVMスイッチであることがわかりました。これは、コンシューマクラスのUSB対応KVMでした。フローチャートで強調表示されているノードごとに、良いKVMを知っていますか?、私は最終的に答えることができませんでした。

そのため、サーバーをKVMスイッチから取り外し、自動ブートを実行しsleep 300; rebootましたrc.local。シーケンスはです。通常のDIMM、低電圧DIMM、PSUワット数などに関係なく、サーバーにはこれに関する問題はありませんでした。

これはすべて、USB KVMスイッチとの不十分な相互作用の結果でした。これがコンソールであったため、探していた場合に障害が発生することが確実になりました。自己実現...


2
うわー、それは良いものです!これを喜んでくれた。
ネッド

7
聖なるカラス。質問と回答に+1。よくできました; 私はおそらくそれを見落としていただろう。「わかっている」?もちろん、それは良いと知られています-それは働いていますよね?
mfinni

どうもありがとうございました!!!それは間違いなくKVMでした。ビデオを取り外してモニターを直接接続するだけで、サーバーは再びスムーズに動作します。OSがロードされた後、KVMを接続し直しました。サーバーの背面にあるケーブルに誤って触れたときに問題が発生したと思います。システムは停止し、このアドバイスにのみ反応します。

1
KVMがこれをどのように引き起こすかについての考えはありますか?
TheLQ

@TheLQ安価な消費者レベルのKVMデバイスが原因でした。キーボードに問題がある可能性もあります。
ewwhite
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.