RAID-6：同時に2つの死んだドライブを交換する方が良いですか？

21

3つの問題のあるドライブがある16ドライブのRAID-6があります。2つはすでに死んでおり、3つ目はSMART警告を発しています。（どのように悪い状態になったかは気にしないでください。）

明らかに、まだ動作しているドライブの前に死んだドライブを交換したいのですが、次の方が良いでしょう：

1つの故障したドライブを交換し、RAIDを再構築してから、もう1つを交換して、再構築します。または
両方のドライブを一度に交換し、両方を並行して再構築しますか？

別の言い方をすれば、1つまたは2つのドライブを再導入することで、冗長性の状態にすばやく戻りますか？2台のドライブを並行して再構築すると、再構築プロセスが遅くなりますか？

重要な場合、コントローラーは3ware 9650SE-16MLです。

— ウォーレン・ヤング
ソース

10

あなたが手に入れたものをすべて越えて、お気に入りの$ deityに多額の寄付を送ってください！

— user9517はGoFundMonicaをサポートします11

1

これに関する質問を1つだけお願いします。このアレイのディスクの正確な製造とモデルを教えてください-私の疑いが正しければ、この質問が将来のユーザーが特定の質問をする際の有用な照会ポイントになることがよくわかります。ありがとうございました。

— チョッパー

8

@Warren-AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE！彼らはそれをオフにしましたか？悪いジュジュ私の友人！今回は遅すぎますが、一般的に言えば、ドライブをシャットダウンすると（特に、長時間稼働している古いドライブの場合）、スピンアップ時にエラーをスローする機会が与えられます（コントローラーに「はい、そのドライブも今フライされます」）

— -voretaq7

2

@ voretaq7：私はかつて、MSA-20ボックスからすべてのディスクを、約3年間の稼働時間と継続的な使用の後にシャットダウンすることにより、地獄に送りました。二度とそんなことはしません:

— 空手犬

1

アレイは現在稼働しており、再構築されているので、気にする人なら誰でも正確なモデルを入手できます。元のハードドライブはST31000340NSでした。つまり、これらはChopper3が要求していたサーバー定格バージョンです。それで、これらは失敗したことで悪名高いのでしょうか？（新しいものはST31000524NSです。）

— ウォーレンヤング

27

!!!!! 1 ！！！！！

一度に1つずつ、まじめに、これを他の方法で行うことを考えないでください。

それ以外は、システムの完全な復元スキルをテストします。

— チョッパー3
ソース

3

この答えに追加する2つの項目は、（1）祈り（好きな神に）と（2）すべてを安全な状態に戻した後の監視（したがって、ドライブが将来故障し、対処できるかどうかがわかります） 2つ半の障害が発生する前の問題オプションで、将来のためにアレイにホットスペアを構成することもできます

— voretaq7

3

またはRAID 10を使用</ stockanswer>

— Chopper3

1

再：祈り、コメントはありません。:) 再：監視、私は長年それを提唱してきました。多分これは誰かの下に火をつけるでしょう。再：RAID-10、入札市場のデータが多すぎる。3 TBのディスクが出てきたとき、冗長性を3倍にせず、ディスクの数を1/3削減しました。ため息。Re：ホットスペア、ドライブが十分に大きいのでこれを実行しますが、この特定のサーバーは16ドライブエンクロージャー内の16ドライブであり、1 TBドライブが最大で、14個すべての使用可能なTBが本当に必要でした。24ドライブシステムに移行しても機能しませんでした。前を参照してください。:)

— ウォーレンヤング

2

ドライブに既に障害が発生している場合、それらを保持する理由はありません。むしろ、2つの連続した再構築は、単一のドライブよりも他のドライブにとってよりストレスが多いと予想されます。

— サイモンリヒター

1

+1、これ。2回連続してリビルドするとストレスが増え、両方を完了する前に3番目のドライブが故障する可能性が高くなりますが、リビルドも高速になります。2番目のディスクのリビルド中に限界ドライブが故障しても、オンラインのままです。したがって、フォールトトレラント状態への最速で安全な方法は、一度に1つずつです。

— ジョエルCoel

14

最近の良いバックアップはありますか？そうでない場合は、合理的な時間でそれらを取得できると思いますか？

正直なところ、他の何よりも再構築中に不良ドライブをオフラインにすることに懸念を抱いています-すでにSMARTエラーをスローしている場合は、その半分以上です。

私の提案は、バックアップを確認してから、一度に1つのドライブを再構築して、SMARTエラー（最初に死んだドライブ、最後にソフトエラー）をスローする状態に交換できる状態に回復することです。

バックアップがない場合、それはがらくたのシュートです：バックアップは、再構築を試行する場合と同様に、十分なソフトエラーを作成して、マージナルドライブを障害としてマークする場合があります。

— voretaq7
ソース

2

このアレイ上のほとんどまたはすべてのデータは、低速リンクを介してテラバイトのデータを繰り返しプルする必要を避けるための一種のキャッシュです。このキャッシュデータはすべて、数か月に一度（一度）ダウンロードするか、別のアレイからコピーできるサイトに出荷することにより、すべて交換可能です。したがって、バックアップは問題ではありません。アレイを保存することで防止しようとしているのは、サーバーをサービスデポに発送し、アレイを再投入して、それを返送するダウンタイムの数日から数週間です。

— ウォーレンヤング

その場合、@ chopper3が言ったのは「The Law Of The Land」です：一度に1台のドライブを再構築し、追加の読み込み負荷で限界のドライブをオフラインにしないでください。

— voretaq7

ふう-それを聞いてうれしい。

— Chopper3

0

「一度に1つのディスク」として変更しても意味がありません。

明らかに、RAIDが両方のディスクを同時に「再同期化」できる場合（それはとにかく失敗します）、RAID全体が最大2つの障害をより速く維持する能力を取り戻すことができます。

— ポワジ
ソース

-1

私の0.02。$

サーバーはすでにオフラインになっているため、障害が発生するドライブでddrescueを実行し、別の正常なドライブにクローンを作成します。

次に、代わりに新しい正常なドライブをアレイに入れます。クローン作成が成功すると、2回の再構築中にドライブが故障するリスクを回避できます。

— ギヨームA
ソース

これはハードウェアRAIDコントローラーであり、個々のディスクはアドレス指定できません。

— チョッパー3