HPサーバーの自動ハードウェアテスト?


9

サーバーのプロビジョニングの一環として、HPのInsight Diagnosticsを実行してハードウェアをテストします。これは手動プロセスです。Insight Diagnosticsの実行を自動化する方法はありますか?

オプション「-rd:」「すべての診断可能なデバイスの診断を実行」を備えたhpdiagsソフトウェアがあります。私のテストでは、これはあまり効果がありません(ディスクからSMART情報を読み取るだけです)。誰かがそれでうまく運んだか?

ハードウェア:HP ProLiant BL460cブレードを搭載したBladeCenter c7000、DL360。

OS:ESXiおよびUbuntu。


2
簡単に言えば、私は大規模な環境でこれを行う必要がないということです。監視とオンボード診断で十分です。しかし、使用しているサーバーモデルに関する情報を提供できますか?そして多分関係するオペレーティングシステム。
ewwhite 2015

リクエストされた情報でチケットを更新しました。
Mark Wagner

HP固有のバージョンのESXiをインストールしていますか?UbuntuシステムにHP管理エージェントをインストールしていますか?サーバーはどの世代ですか?G6?G7?Gen8?
ewwhite 2015

HP管理エージェントは、ESXiとUbuntuの両方にインストールされます。サーバーはGen8で、Gen9になります。
Mark Wagner、

8
I updated the ticket with the requested info-笑った。これはヘルプデスクではありません。
joeqwerty 2015

回答:


8

それで、私は別の質問をします:

プロビジョニングの前にサーバーでHP Insightハードウェア診断を実行する必要があるのはなぜですか?

上記の私のコメントで、大規模なHP ProLiant環境で先制的にこれを行うことによって得ることはほとんどないことを示しました。私はそれについて私の考えを明確にする必要があります...

頻度の降順で、通常発生する問題の種類を見てみましょう。

  • ストレージアレイとディスク:RAIDコントローラーはOS、ログ、SNMP、電子メール、ILOに報告し、かなりのライト点灯して正常性を示します。

  • RAM:POSTプロセスは、RAMステータス、およびOS、ログ、SNMP、電子メール、ILOへのシステムレポートを検出し、フロントパネルのSystems Insight Display(SID)の LEDインジケーターを点灯させます。また、これらのシステムのエラー検出はすでに堅牢であるため、私はRAMバーンインプロセスのファンではありません。

  • 温度とファン:サーバーの温度とファンの速度は、ILOによって調整されます。これらのシステムは30以上の温度センサーがあるため、冷却システムは非常に効率的です。これは引き続き、OS、ログ、SNMP、電子メール、およびSIDに報告します。

  • 電源:PSUステータスは、OS、ログ、SNMP、電子メール、およびSIDと、実際の電源ユニットの実際のインジケーターライトに報告されます。

  • 全体的なヘルス:これは、内部ヘルスLEDと外部ヘルスLEDに加えて、SIDディスプレイで一目で簡単に評価できます。これは、サーバーのログ、SNMP、電子メール、およびILOにも報告されます。

ここに画像の説明を入力してください

実行時またはOSのインストール後にレポートされない、またはレポートできなかった、展開前に見つかる条件は考えられません。

診断ループは、通常、明確な以前の問題がないシステムで実行しても何も検出しません。これは主に、サーバーがユーティリティを実行するために、ユーティリティまたはIntelligent Provisioningファームウェアを起動して起動する必要があるためです。

別の言い方をすると、サーバーにとって深刻な「SPOF」となる項目は、おそらくシステムが自己診断を実行することを妨げます。

最も一般的な障害項目はまだかなり堅牢です。ディスクはRAIDである必要があり、ホットスワップ可能です。ファンと電源もホットスワップ可能です。RAMにはECCしきい値があり、ほとんどのProLiantプラットフォームにはオンラインスペアオプションがあります。診断を実行してこれらのコンポーネントの障害を引き起こすためにできることは何もありません。内部冗長性があるHP C7000ブレードエンクロージャーを使用しており、障害の発生率がかなり低いはずであるという事実を追加します。


問題は、(a)OSインストール後に障害が検出された(つまり、サーバーが稼働している)場合、(b)オンラインで修復できない、または障害のあるコンポーネントがサーバーのSPOFである場合、(c)サーバーがSPOFの場合、ダウンタイムが発生します(すぐに、またはシステムが修理のために停止したとき)。結論を回避するには、条件の1つを回避する必要があります。(a)製造前に障害を検出することにより、報告機能を詳しく説明していただきありがとうございますが、最初から報告する必要がないようにしています。発生しないためです。
Mark Wagner、

診断を実行するためにサーバーがPOSTを実行してユーティリティまたはIntelligent Provisioningを起動する必要があることを考えると、HP診断ループでは何も検出されない可能性があります。最も一般的な障害項目はかなり堅牢です。ディスク、ファン、電源はホットスワップ可能で、RAMにはECCしきい値があります。これらのコンポーネントに障害を引き起こすためにできることは何もありません。
ewwhite 2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.