ブレードシャーシの障害の確率


48

私の組織では、ラックサーバーではなく、ブレードサーバーの購入を検討しています。もちろん、テクノロジーベンダーも非常に優れたサウンドを提供しています。さまざまなフォーラムで頻繁に読んでいる懸念は、サーバーシャ​​ーシがダウンする可能性があるという理論上の可能性があることです。その結果、すべてのブレードがダウンします。これは、共有インフラストラクチャによるものです。

この確率に対する私の反応は、冗長性を持ち、1台ではなく2台のシャーシを使用することです(もちろん非常にコストがかかります)。

一部の人々(HPベンダーなど)は、多くの冗長性(冗長電源など)により、シャーシが故障する可能性は非常に低いと私たちに納得させようとします。

私の側のもう一つの懸念は、何かがダウンした場合、スペアパーツが必要になるかもしれないということです-これは私たちの場所(エチオピア)では困難です。

ブレードサーバーを管理している経験豊富な管理者にお願いします。彼らは全体としてダウンしますか?そして、賢明な共有インフラストラクチャは何ですか?

その質問は、共有ストレージにも拡張できます。繰り返しになりますが、1台だけでなく2台のストレージユニットが必要です。ベンダーも、これは非常に堅実であり、障害は発生しないと述べています。

まあ-私はそのような重要なインフラストラクチャが冗長性なしで非常に信頼できると信じることはほとんどできません-しかし、多分あなたは成功したブレードベースのプロジェクトを持っているかどうか、コアパーツ(シャーシ、ストレージ... )

現時点では、HPに注目しています-IBMが非常に高価に見えるためです。


3
いい質問ですね。本日、回答と実際の障害シナリオを投稿します。
ewwhite

デルのCサーバーにあるものを見ましたか?たとえば、C6100には2Uボックスに4つのノードがあり、これは4スロットブレードシャーシに相当します。1つの10Uブレードシャーシの代わりに、5つの2Uラックサーバーを入手できます。単一障害点ではなくなりましたが、バックプレーンの利点を失います。おそらくHP / IBMには同等の製品があります。
jqa

回答:


49

シャーシが完全に故障する可能性は低いです...

ブレードエンクロージャの完全な障害を維持する前に、施設で問題が発生する可能性があります。

私の経験は、主にHP C7000およびHP C3000ブレードエンクロージャに関するものです。また、DellおよびSupermicroブレードソリューションも管理しました。ベンダーは少し重要です。しかし、要約すると、HPのギアは素晴らしいものであり、Dellは素晴らしく、Supermicroは品質、弾力性に欠け、設計が不十分でした。HPとDell側で障害を経験したことはありません。Supermicroには深刻な機能停止があり、プラットフォームを放棄せざるを得ませんでした。HPとDellでは、シャーシの完全な障害に遭遇したことはありません。

  • 熱イベントがありました。コロケーション施設で温度が10時間115°F / 46°Cに達すると、空調が失敗しました。
  • 電力サージと回線障害:A / Bフィードの片側が失われます。個々の電源障害。通常、ブレードのセットアップには6つの電源があるため、十分な警告と冗長性があります。
  • 個々のブレードサーバーの障害。1つのサーバーの問題は、エンクロージャー内の他のサーバーには影響しません。
  • シャーシ内火災 ...

さまざまな環境を見てきましたが、理想的なデータセンターの条件でインストールするという利点がありました。HP C7000およびC3000側で考慮すべき主なことは、シャーシが完全にモジュール式であることです。コンポーネントは、ユニット全体に影響を及ぼすコンポーネント障害の影響を最小限に抑えるように設計されています。

このように考えてみてください...メインC7000シャーシは、フロント(パッシブ)ミッドプレーンアセンブリとバックプレーンアセンブリで構成されています。構造的エンクロージャーは、フロントとリアのコンポーネントを単に保持し、システムの重量を支えます。ほぼすべての部品を交換することができます...私を信じて、私は多くを分解しました。主な冗長性は、ファン/冷却、電源、および管理のネットワーク化です。管理プロセッサー(HPのOnboard Administrator)は、冗長性のためにペアにすることができますが、サーバーはそれらなしで実行できます。

ここに画像の説明を入力してください

フル装備のエンクロージャ-正面図。下部にある6つの電源装置は、シャーシの深さいっぱいに広がり、エンクロージャーの背面にあるモジュラー電源バックプレーンアセンブリに接続します。電源モードは構成可能です:3 + 3またはn + 1など。そのため、エンクロージャーには確実に電源の冗長性があります。 ここに画像の説明を入力してください

フル装備のエンクロージャ-背面図。背面のVirtual Connectネットワークモジュールには内部クロスコネクトがあるため、どちらか一方が失われても、サーバーへのネットワーク接続を維持できます。ホットスワップ可能な電源装置が6台、ホットスワップ可能なファンが10台あります。 ここに画像の説明を入力してください

空のエンクロージャ-正面図。エンクロージャのこの部分には実際には何もないことに注意してください。すべての接続は、モジュラーミッドプレーンにパススルーされます。 ここに画像の説明を入力してください

ミッドプレーンアセンブリを取り外しました。下部のミッドプレーンアセンブリの6つの電力供給に注意してください。 ここに画像の説明を入力してください

ミッドプレーンアセンブリ。これは魔法が起こるところです。16の個別のダウンプレーン接続に注意してください。各ブレードサーバーに1つです。エンクロージャー全体を殺したり、他のサーバーに影響を与えたりすることなく、個々のサーバーソケット/ベイに障害が発生しました。 ここに画像の説明を入力してください

電源装置のバックプレーン。標準の単相モジュールの下にある3øユニット。データセンターの配電を変更し、電源バックプレーンを交換して、新しい配電方法に対処しました ここに画像の説明を入力してください

シャーシコネクタの損傷。この特定のエンクロージャは、組み立て中に落下し、リボンコネクタのピンが破損しました。これは何日も気付かれず、実行中のブレードシャーシがFIREをキャッチしました... ここに画像の説明を入力してください

ミッドプレーンリボンケーブルの黒焦げのままです。これにより、シャーシの温度と環境の監視の一部が制御されました。ブレードサーバーは、問題なく稼働し続けました。影響を受けた部品は、予定されていたダウンタイム中に私の余暇に交換され、すべてが順調でした。 ここに画像の説明を入力してください


C7000の場合は+1。過去2年間、ハードウェアまたはパフォーマンスに関して、エンクロージャーまたはブレードで問題が発生したことはありませんでした。
tombull89

1
これに同意する必要があります-デルのさまざまなブレードシャーシがあり、それらはほとんど防弾になっています。1つのシャーシで1つのコントローラーモジュールに障害が発生したと思います。その結果、デルサポートが別のコントローラーとそれに合うエンジニアを出荷するのにかかった日は、シャーシ自体をリモートで管理できませんでした。障害またはコントローラーの交換操作による実際のブレードのダウンタイムはありません。
ロブモアー

1
@ewwhiteに同意する必要があります。私は約7年間ノンストップでc7000を実行していますが、シャーシに障害はありません。HVACの故障により、数時間130°Fで稼働させても、故障はありませんでした。念頭に置いておくべき大きなことは、電源負荷を複数の電源パネルに分割し、ネットワークを複数のスイッチに分割して、単一障害点を排除することです。ブレードサーバーのハードドライブだけが悪いことがありますが、これは従来のサーバーでも見られます。
mrTomahawk

20

私は8年前から少数のブレードサーバーを管理してきましたが、システム全体に障害が発生し、多くのブレードがオフラインになりました。電源関連の問題のために私は本当に近づいてきましたが、外部ソースに起因しないシャーシ全体の障害はまだありませんでした。

シャーシは単一障害点を表しているという観察は正しいですが、最近ではシャーシに大量の冗長性が組み込まれています。私が使用したすべてのブレードシステムには、ブレードへの並列給電と、別々のパスを通る複数のネットワークジャックがあり、ファイバーチャネルの場合、ブレードからラックの背面の光ポートへの複数のパスがありました。シャーシ情報システムにも複数のパスがありました。

適切なネットワークエンジニアリング(冗長NIC使用、ストレージ用のMPIO)により、単一問題イベントは完全に存続可能です。これらのシステムを使用していたときに、次の問題が発生しましたが、複数のブレードが存在する場合、それらのいずれにも影響はありませんでした。

  • ブレードラックで2つの電源が故障します。他の4台には、負荷をサポートするのに十分な冗長性がありました。
  • 三相電源の位相を失う。これらの電源は最近ではまれですが、他の2つのフェーズには負荷をサポートするのに十分な容量がありました。
  • シャーシ間管理ループの喪失。別のコールでベンダーの技術者がそれに気づくまで、何年もの間このようでした。
  • シャーシ間管理ループが完全に失われます。管理コンソールへのアクセスは失われましたが、サーバーは何も問題がないかのように稼働し続けました。
  • 誰かがラックバックネットワークバックプレーンを誤って再起動した。そのシャーシ内のすべてが冗長NICを使用していたため、サービスが中断することはありませんでした。すべてのトラフィックが他のバックプレーンに移動しました。

しかし、TomTomのコストに関するポイントは非常に真実です。完全なコストパリティを実現するには、ブレードシャーシを完全にロードする必要があり、バックオアスイッチのような特別なものを使用しないでください。ブレードラックは、スペースが限られているため、本当に密度が必要な領域に適しています


SuperMicro Twinアーキテクチャでは、TUごとに2台のコンピューターがあり、コンピューターごとに2つのソケットがあります。これは、MOSTブレードの場合と同様です。それは間違いなく非常に高密度です;)私が知っている唯一の高密度は、アイビーブリッジを使用するDellブレードです...しかし、それらは比較でより制限されています。
トムトム

@tomtomしかし、スーパーマイクロツインは冗長電源を提供しますか?私たちは1つだけを構築しましたが、そのオプションはどこにもありませんでした。万が一の場合に備えて、コールドスペアpsuを購入しました。
ジェフアトウッド

@JeffAtwood、私はSuperMicroの1U双子で冗長PSUを見たことはありませんが、2U 4ノード双子双子のラインにはそれらがあります。
チャールズ

また、誰が気にします。ラックに予備の電源を用意します。交換には数秒かかります。
TomTom

14

その質問は、共有ストレージにも拡張できます。繰り返しになりますが、1台だけでなく2台のストレージユニットが必要です。ベンダーも、これは非常に堅実であり、障害は発生しないと述べています。

実は違う。あなたはこれまでのところ理にかなっていて、この文はそれらを「あなたの目の前にあるものを読む」ようにします。完全レプリケーションを備えたHAは、ストレージユニットのエンタープライズ機能として知られています。ポイントは、SAN(ストレージユニットはブレードシャーシよりもはるかに複雑で、最後に「バカな金属」であるということです。一部のバックプレーンを除くブレードシャーシのすべては交換可能です。すべてのモジュールなどは交換可能で、個々のブレードはブレードセンター自体がブレードに高可用性をもたらすとは誰も言いません。

これは、一貫した状態で100%稼働しているはずのSANとは大きく異なるため、レプリケーションなどがあります。

言った:あなたの番号を見てください。私は今しばらく刃を購入することを考えました、そして、彼らは決して金融感覚を作りませんでした。シャーシは非常に高価であり、ブレードは通常のコンピューターと比べてそれほど安くはありません。代わりにSuperMicro Twinアーキテクチャを検討することをお勧めします。


双子および双子双子(2U 4ノード)は、ブレードの優れた代替品です。Intelは、ツインおよびツインツインサーバーのラインも製造しています。
チャールズ

@チャールズあなたは新しい脂肪双子を知っていますか?4 Uに8台のマシン;)
TomTom

私は1つを見ましたが、それで遊んだり評価したりする機会がありませんでした。
チャールズ

4

私が経験したブレードサーバーはIBMのものです。これらの特定のものは完全にモジュール式であり、多くの冗長性が組み込まれています。そのため、何かが失敗した場合、PSUやモジュラースイッチなどのコンポーネントの1つになります。

IBMブレードに携わって以来、以前に完全な障害は見たことがありません。

他のブランドでも同様の方法で構築されると思います。
ベンダーにも話をして、たくさんの読書をすることは良い考えです。
それは大きな投資です。


1

同じエンクロージャーでの複数のブレードサーバーの停止につながる障害は、同じラック内の複数のサーバーの停止につながる障害に匹敵します(可能性と原因)。

単一障害点を最小化するための初期セットアップ(それぞれが負荷全体を処理できる2つの別個の AC電源、それぞれ半分が負荷全体を処理できるように別々のDC電源を実行)、2つの別個のネットワーク接続、予想される全体の負荷などを処理できます)、シャーシ内のすべてのブレードまたはラック内のすべての2Uサーバーを取り出すものの違いは非常に小さいです。


1

さまざまなフォーラムで頻繁に読んでいる懸念は、サーバーシャ​​ーシがダウンする可能性があるという理論上の可能性があることです。その結果、すべてのブレードがダウンします。これは、共有インフラストラクチャによるものです。

確かに!約5年前、2つのHP Proliant p-Classブレードエンクロージャーを管理しているときに、シャーシ全体の問題に何度か遭遇しました。

ブレードサーバーがオフになっていた場合、ブレードサーバーの電源をオンにできませんでした(サーバーは頻繁にオフにはなりませんが、同じように非常に現実的な問題になりました)。サーバーが突然オフになり、再びオンにできなくなりました。最後に、すべてのサーバーの電源を切り、再び電源を入れることができませんでした。

私が思い出したように、ほとんどすべての問題は、電力の悪いバックプレーンまたはコントローラーのバックプレーンに起因していました。それらを何度も交換しましたが、この世代のブレードエンクロージャには問題があるという、技術者から受け取った非特定のオフレコのメッセージがありました。

当時私は、将来の購入で何か言いたいことがあれば、ブレードサーバーの利点はリスクに見合うだけのものではないと判断しました。

その点については、私の次の雇用主と私の現在の雇用主に早送りします。すでにHP Proliant c-Classエンクロージャーが稼働していたため、ブレードに対する私の温かい気持ちはあまり重要ではありませんでした。c-Classエンクロージャーを扱った5年間で、エンクロージャー全体が故障したp-Classのような経験をしたことがありません。彼らは大きな問題なしで実行されています。

(暴風雨が屋根、4階、コンピューター室のシールの小さな穴、ケーブルを通ってシャーシに雨を降らせたときを除く)


-1

DELLとHPの両方のブレードシャーシには、冗長ミッドプレーンがありません。ここで、IBM Bladecenterが勝者であることが証明されます。私の知る限り、冗長ミッドプレーンを提供する唯一のブレードシャーシです。HPはブレード用の管理ソフトウェアの素晴らしいスイートを提供していますが、シャーシ全体の単一障害点を回避するために、Bladecenter Eを自社用に購入しました。


これは確かにIBMのマーケティング資料が私に言っていることです。完全に冗長なブレードソリューションを備えた唯一のベンダーであること。ただし、このスレッドの他のメッセージを読んだ後、HPソリューションもこれを備えているようです。
マルタイン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.