RAID 5 2ドライブ障害の実際の経験をお探しですか?[閉まっている]


15

大型ドライブでRAID 5 2ドライブに障害が発生したという個人的な経験があるかどうか疑問に思っていますか?

私が理解しているように、理論は、1〜2TBの大きなドライブでは、RAIDセットで1台のドライブが故障した場合、すべてを再構築する必要があるため、他のすべてのドライブを非常に激しく叩き、別の故障の可能性が上がるということです、特に、ドライブが同じ製造バッチからのものである場合。また、別のドライブを失うと、すべてのデータが失われます。

これは通常、私が同意する「RAIDはバックアップではありません」という文の後に説明されています。

これの理論は理にかなっており、私はそれを理解していますが、本当に起こりますか?


悲しいことに、これを実際に体験して新しい質問がありました。:( superuser.com/questions/516844/...
ヘネス

回答:


15

はい、私はそれが私に起こったことがありました。4台(消費者グレード)のWD 500ドライブのセットは、約1週間で不良になりました。最初の交換が遅く、アレイをオフラインにせず、2番目が失敗したときにすべてのデータを失いました。残りの2つの良いものを再利用しましたが、そのうちの1つは翌月内に失敗しました。それらはすべて適切に冷却され、手入れされました。私は今、「悪いバッチ」のレトリックを信じているとしか言えません。

別の事件で、1か月以内に異なるメーカーとモデルの3つのドライブが別々に故障しましたが、それらが故障した理由は換気が不適切だったためだと確信しています。ドライブを調理しないでください!


3
当然の結果として、ドライブが故障した場合に備えて予備を用意してください。また、静かな破損に注意してください...動作しているふりをしているだけのドライブ上のデータは簡単に失われます。
ポールマクミラン

これは、RAIDアレイに同じバッチのドライブをインストールしないもう1つの理由です。それらは、故障時間に相関があります(トランシェサブプライム担保証券のデフォルト率のように)。
アンドリューマオ14

4

これは実際に私に起こりましたが、ドライブが故障する最も一般的な方法ではありませんでした。RAID 5に500 GBの外付けSATAドライブが4台ありました。これらは安価な古いIBMラックマウントサーバーに接続されていました。階段の下、そしてある日、ネズミかバニーのいずれかでセットアップ全体が隠れてしまいましたが、いくつかの電源ケーブルと2台のドライブで何かが噛まれました。すべてのドライブは安価な外部エンクロージャーに入れられていたので、私はそれほど驚くべきではなかったと思います。


3

2台のドライブを連続して失う可能性があるかどうかを尋ねていますか?もちろん、何でも起こります。RAID 5では、データアクセスの可用性とパフォーマンスが大幅に向上しますが、RAID 5は何もバックアップしません。これは、単一のドライブのハードウェアの損失によるデータの使用を防ぐのに役立ちます。データのコピーではありません。古いコピー、古いリビジョン、または単に現在の作業のコピーを復元することはできません。また、データ破損から保護しません。単にドライブを失うだけでなく、間違った方向に進む可能性のあるものがたくさんあります。ウイルスはすべてのデータを破壊する可能性があり、妹はデスクトップ上のゴミ箱がファイルを投げ入れて空っぽになるのを見るのが好きです、愚かな友人はあなたのマシンにソーダを落とすなど

また、ハードドライブRAIDコントローラーを失う可能性があることを忘れないでください。また、配列を別のランダムコントローラーに移動することはできません。通常はまったく同じものを使用する必要がありますが、それでも問題が発生する可能性があります。RAIDコントローラーの中には、ボードに情報を保存するものや、接続されているアレイに構成情報を送信するものがあります。この状況が発生した場合、それはギャンブルです。

SFでの同じ質問:https : //serverfault.com/questions/2888/why-is-raid-not-a-backup

他の理由が必要ですか?

編集:あなたの考えは正しいですし、誰にでも起こる可能性があります。私は個人的に、複数のドライブが故障するのを見たことはありませんが、いくつかのダイが非常に近くにあるのを見ました。それらのどれも再建のその窓にありませんでした、しかし、それは技術的に危険です。しかし、何かが正しく起きた場合のバックアップがありますか?ハハ。一部の人々は時々これについて難しい方法を学びます。RAID 6はデュアルパリティで次のレベルに進み、最大2台のドライブを失う可能性があります。RAIDセットアップでは、アレイのサイズ(ドライブ数)と複雑さにより、障害の可能性が高くなります。より多くのドライブ=可能性のある障害のより多くのポイント


申し訳ありませんが、私はそれをすべて理解しており、誰かにそれが起こったかどうか、そしてシナリオは何であったかを尋ねましたか?
ブライアン

3

正しいです。RAID-5シナリオでは、1つのディスクを失ってから再構築した場合、システムはRAIDセット内のすべての残存ドライブのすべてのセクターを正常に読み取る必要があります。NetAppは、状況によっては(ある種の最大28台のドライブのRAIDセットを実行できる)、2回目の障害が発生する可能性は10分の1になる可能性があると主張しています。したがって、彼らはRAID-6に関連していると思う「デュアルパリティ」を実行します。

明らかに、RAIDセットに搭載されているドライブが多いほど、またドライブが大きいほど、問題が発生する可能性が高くなります。小規模なRAIDセット(3〜5台のディスク)の場合、RAID 5を使用することに対するオッズはおそらくそれほど大きくシフトしていません。

しかし、できる限りNetAppでRaid-DPを実行しています。


+1「生き残ったすべてのドライブのすべてのセクターを正常に読み取る必要がある」という事実について考えたことはありませんでした。
AaronLS 2009年

2

個人的な経験はありませんが、それが起こった人々の悲鳴に耳を傾けました。単一のドライブ、USBキー、テープ、巨大なRAIDインストール、Amazon S3などのストレージシステムは、最終的にはユーザーにとって最も不便な方法で失敗します。RAID 5セットの再構築中の2番目の障害は、これが発生する可能性のある方法の1つです。

余談ですが、トリプルパリティRAIDのサポートは数日前にOpenSolaris統合されていました。したがって、少なくとも1つのベンダーは、パリティRAIDの再構築中に2つの追加障害を許容することはエンジニアリングに値すると考えています。


1

これは実際に実際に起こります。これが、NetAppストレージソリューションにRAID 6が実装されている理由です。これは、再構築中に2台目のドライブを紛失した場合のためです。

次のページのリンクテキストに記載されている標準の式を使用して、障害の可能性を計算できます 。十分な数のディスクがある場合、膨大な数のデータボリュームを備えたRAID 5を使用している場合、この数を心配ゾーンにプッシュできます。

個人的な経験から、同じ重要な時間枠内で同じアレイで2つのドライブ障害が発生する可能性があることは確かです。RAID 6により、バックアップから復元する必要がなくなりました。

お役に立てれば


1

シナリオは次のとおりです。RAID5アレイでドライブに障害が発生しましたが、スペアが既に存在していたか、新しいハードドライブの注文がついに完了しました。あなた(またはおそらくリモートミニオン)は、故障したドライブを交換するために新しいドライブを手に入れます。悪いラベル付け、疲労、または単なる愚かさのために、残りの良いドライブの1つが障害のあるドライブの代わりに排出されます...そして、2番目の障害があります。


1

私はデータ復旧ビジネスに携わっているので、これを見てきました。そして、はい、それらはしばしば同時に失敗します、しかし、私はそれが不一致のドライブで起こるのを見たので、これがそれらが必ずしも構築されたときと関係があるとは思いません。ほとんどの場合、このタイプの障害は、雷雨、電力サージ、または停電の直後に発生します。

通常、サージはドライブまたはRAIDコントローラーを損傷し、数日以内に故障し始めます。私は実際に、停電後に2台のドライブが同時に故障したアレイの復旧に取り組んでいます。(今は絶望的に見える)

ちょっとしたヒント:サージプロテクターは機器を本当に保護しません。RAID 5は常に適切なUPSに接続してください。アレイがUPS上にあるときにこれが起こるのを見たことはありません。


1

偶然にシングルパリティセットから2番目の正常なドライブを引き出しても、適切なRAID実装でアレイが破壊されることはありません。ZFS RAID-Zは、再びオンラインになるまでアレイ上のすべてのI / Oをフリーズすることを知っています。


0

別のシナリオ:テープドライブからバックアップテープを取り出すためにリモートミニオンが注文されます。彼女はラックに行き、テープドライブからテープを引き抜かない...

あなたはこれがはるかにフェッチされていると思いますか?まあ、私はちょうどそれをやった顧客に今あり、サーバーの再構築を見ています。

彼女は実際にテープドライブにあるテープを焼かなかった。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.