ハードウェアRAIDコントローラーキャッシュバッテリー障害の頻度/寿命?


14

私は、AdaptecおよびLSI MegaRAIDハードウェアRAIDコントローラーを装備した多くのSupermicroサーバーを含む環境にいます。これらのコントローラーには、バッテリバックアップ式キャッシュモジュールが含まれており、書き込みパフォーマンスを向上させ、転送中のデータを保護します。

頻繁にサポートされる問題は、RAIDコントローラーのバッテリー障害です。これにより、アレイがライトバックモードからライトスルーモードに移行ます。システムの書き込み速度が低下すると、明らかにパフォーマンスが低下します。これは、システムの電源を切ってバッテリーを交換するためのダウンタイムウィンドウが確立されるまで続きます。

これは私たちにとって非常に日常的な操作です。数千台の物理サーバーでほぼ毎週 ...充電サイクルなしで交換できるように、交換用バッテリーを準備するための充電ステーションも設置されています。

おそらく、HP ProLiantサーバーとSmartアレイRAIDコントローラーの長い歴史に甘やかされていますが、HPシステムのバッテリー寿命は通常4〜6年でした。最終的には、2009年頃にRAIDバッテリーの使用を廃止しました。スーパーキャパシタでバックアップされたメモリモジュール(フラッシュバックアップ式書き込みキャッシュ、またはFBWC)に置き換えられました。

AdaptecおよびLSIコントローラーのバッテリー障害は、 12か月未満稼働しているシステムで時々発生するのを見るので、これは他の環境で一般的かどうか疑問に思います。

これが一般的な場合、他の大規模なサーバー環境はこれをどのように処理しますか?

  • RAIDバッテリーの交換を処理するためのヒントやコツはありますか?
  • 役立つ構成パラメーターはありますか?
  • これは環境内の運用に対してどれほど破壊的ですか?
  • シャーシの冷却と温度の低下が要因になる可能性がありますか?
  • 私たちは何か間違ったことをしていますか?
  • Dell PERCコントローラは、LSIによって作成されています。Dell環境では、同じ短いバッテリ寿命が発生しますか?

1年以上使用できる新世代バッテリーの概要を示すLSI製品資料。 ここに画像の説明を入力してください

HP ProLiant DL585 G2サーバーは、1000日以上の稼働時間とRAIDバッテリーを搭載しています...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
ヒント:Adaptecコントローラーの最新世代では、バッテリーの代わりにスーパーキャップ/フラッシュも使用しています。
スヴェン

ああ、私はすべての製造業者が現在スーパーキャップベースのソリューションを持っていることを知っていますが、既存の設置面積を考えると、インフラストラクチャ全体に大きな変更を加えることは困難です。
ewwhite

2
私はこれをやったことはありません(おそらくそれは悪い考えのように聞こえ、私はあなたほど頻繁に問題を抱えていないためです)が、テストサーバーの RAIDバッテリーをオンにして交換することができます。それを引き出し、カバーを外し、不良バッテリーを取り外し、良品を接続してから、ラックに戻します...すべてがうまくいけば、ダウンタイムを伴わない新しいバッテリー交換プロセスができます。
8月

2
@August Uhm、危険な手順が進むにつれて、これは「OMG WHERE DID MY DATA GO」リストでかなり高く聞こえます。
ダン

2
うん、確かに...恐ろしいアイデアのように聞こえますが、ダウンタイムがないという状況と要件を考えると、テストサーバー(または30台のテストサーバー...)で試してみる価値があるかもしれません可能。数千台のサーバーの個々のRAIDバッテリーに依存しないようにインフラストラクチャをやり直す以外のオプションは何ですか?
8月

回答:


9

Supermicrosが何らかの方法で破損していると思われます-バッテリーパックが過熱している可能性があります。最新のLSIはMegaCLIを介して温度を報告します-交換が必要なサーバーでこの値を監視することができます。

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

LSI BBUコントローラを搭載したDellとFujitsuのシステムをいくつか見ましたが、毎年バッテリーパックを交換していません(ただし、パックを深放電でねじ込んだ場合を除きます)。典型的な寿命は約3〜5年です。


4
システムが明示的にRAID BBUのホット交換を許可しない限り、それを試みません。RAIDキャッシュバッテリーを毎年交換する必要があるシステムを見たことはありません。3〜5年が典型的な耐用年数です。
voretaq7

あなたはそれを得たと思います!
ewwhite

1

平均バッテリ寿命は3〜5年です。また、フラッシュベースのFBWCも失敗することを忘れないでください。理由/方法はわかりませんが、HPサーバーで定期的に交換していました。バッテリーよりも長持ちする必要がありますが、個々のサーバーからの統計情報はありません。

故障したバッテリーとバッテリー学習の影響を防ぐ標準的な方法は、複数のバッテリーを使用することです。これが、HPストレージ(HP EVAなど)の仕組みです。ホットプラグバッテリーが2つあり、1つが低充電または交換中の場合、コントローラーは残りのバッテリーで動作します。複数のバッテリーをSmartArrayに接続できるかどうかはわかりhpacucli diagませんが、出力ではサポートが必要であることが示されています。

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

数百回のインストールを経たIBMバージョンのLSIプラットフォームでの私の経験では、平均的なバッテリーは2年しかかからず、スーパーキャップはそれ以上良くなく、その一部はファームウェアのアップデートで修正できますが、LSIにはまだありません正しい。最初の2年間で約75%のスーパーキャップの故障がありました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.