再現が困難な問題を示している新しいHP ProLiant DL360 G7システムがあります。サーバーがランダムにハング「進行中の消費電力と温度校正...」時の画面POSTプロセス。これは通常、インストールされたオペレーティングシステムからのウォームブート/リブートの後に続きます。
この時点でシステムは無期限に停止します。ILO 3の電源制御を介してリセットまたはコールドスタートを発行すると、システムは問題なく正常に起動します。
システムがこの状態にあるとき、ILO 3インターフェイスは完全にアクセス可能であり、すべてのシステムヘルスインジケータは正常です(すべて緑色)。サーバーは、PDUへの電源接続を備えた温度管理されたデータセンターにあります。周囲温度は64°F / 17°Cです。システムは、展開する前に24時間コンポーネントテストループに置かれ、障害はありませんでした。
このサーバーのプライマリオペレーティングシステムはVMWare ESXi 5です。最初に5.0を試し、その後5.1ビルドを試しました。どちらもPXEブートとキックスタートを介して展開されました。さらに、ベアメタルWindowsおよびRed Hat Linuxインストールでテストしています。
HP ProLiantシステムには、包括的なBIOSオプションのセットがあります。Static高性能プロファイルに加えて、デフォルト設定を試しました。起動スプラッシュ画面を無効にし、上記のスクリーンショットではなく、その時点で点滅するカーソルを取得しました。また、BIOS設定用に VMWareの「ベストプラクティス」をいくつか試しました。私たちは見てきた同様の問題を概説しているようだHPからの助言を、私たちの特定の問題を解決しませんでした。
ハードウェアの問題を疑って、ベンダーに同じシステムを同日配送用に送ってもらいました。新しいサーバーは、ディスクを除いて完全に同一のビルドでした。ディスクを古いサーバーから新しいサーバーに移動しました。交換ハードウェアで同じランダムブートの問題が発生しました。
現在、両方のサーバーを並行して実行しています。この問題は、ウォームブートでランダムに発生します。コールドブーツには問題がないようです。Turbo Boostを無効にしたり、電力較正機能を完全に無効にしたりするなど、より難解なBIOS設定のいくつかを検討しています。私はこれらを試すことができましたが、必要ではないはずです。
何かご意見は?
-編集-
システムの詳細:
- DL360 G7-2 x X5670 Hex-Core CPU
- 96 GBのRAM(12 x 8 GB低電圧DIMM)
- 2 x 146GB 15k SASハードドライブ
- 2 x 750W冗長電源
ProLiant DVDリリース用の最新のHP Service Packの時点でのすべてのファームウェア。
HPに電話してinterwebzをトロールして、ILO 3の不適切な相互作用について言及しましたが、これは物理コンソール上のサーバーでも発生します。HPは電源も推奨しましたが、これは他の実稼働システムに正常に電力を供給するデータセンターラックにあります。
これが、低電圧DIMMと750W電源装置との相互作用が不十分になる可能性はありますか?このサーバーはサポートされている構成である必要があります。