RAID-5:2つのディスクが同時に故障しましたか?


21

5台のSeagate Barracuda 3 TB SATAディスクを含むRAID-5アレイを備えた、CentOSを実行するDell PowerEdge T410サーバーがあります。昨日、システムがクラッシュしました(どのくらい正確かわからないし、ログもありません)。

RAIDコントローラBIOSを起動すると、5つのディスクのうち、ディスク1が「欠落」、ディスク3が「劣化」とラベル付けされていることがわかりました。ディスク3を強制的にバックアップし、ディスク1を(同じサイズの)新しいハードドライブに交換しました。BIOSはこれを検出し、ディスク1の再構築を開始しました-ただし、%1でスタックしました。回転の進行状況インジケーターは一晩中動きませんでした。完全に冷凍。

ここで私のオプションは何ですか?プロのデータ復旧サービスを使用する以外に、再構築を試みる方法はありますか?そのように2つのハードドライブが同時に故障する可能性はありますか 過度に偶然のようです。ディスク1が故障し、その結果ディスク3が「同期がとれなくなった」可能性はありますか?その場合、「同期」に戻すために使用できるユーティリティはありますか?


20
ええ、大きなSATAディスクはそうする傾向があります。(3 TBの再構築には、二重障害にさらされるまでに何時間もかかります)。したがって、これは予想されることであり、このような構成を使用するRAID-5が絶対に推奨されない理由です。
ミシェルズ

9
確かに。理想的な世界では、ドライブの故障率はランダムに分布しています。実際には、これは起こりません-それらは通常、同じバッチから購入され、同じストレスにさらされます。つまり、それらはすべて同時に終末期を迎え始めます。突然の読み込みのシフトは、SATAディスクの回復不能なエラーレートを調べ始める前であっても、いくつかの「オーバーザエッジ」を簡単に転倒させる可能性があります。とにかく-悪い知らせは、これらのドライブの1つをオンラインにできない限り、バックアップを取得する時が来たのではないかと思います。
Sobrique


5
今ではあまり役に立たないことはわかっていますが、参考までに、一般的なコンセンサスは、1TBを超えるドライブにRAID6を使用することです(7200rpmについて話しているときは少なくとも)。
pauska

2
RAID 5はフォールトトレランスを提供しますが、これは妥協のオプションです-N + 1の復元力がありますが、大きなドライブがある場合は、2番目のフォールトが発生する可能性のある大きなウィンドウがあります。RAID-6はN + 2フォールトトレランスを提供します。これは一般に良好と考えられています(トリプル障害の可能性はずっと低いです)。ただし、高価なディスク(たとえば、安価なSATAドライブではない)の故障率もわかります。
Sobrique

回答:


24

あなたが悪い答えを受け入れた後、私は異端の意見を本当にすみません(そのような配列をすでに何度も保存しました)。

あなたの第二故障したディスクは、おそらくマイナーな問題、多分ブロック障害が発生しています。これが原因で、悪い raid5ファームウェアの悪い同期ツールがクラッシュした理由です。

低レベルのディスククローン作成ツールを使用してセクターレベルのコピーを簡単に作成し(たとえば、gddrescueはおそらく非常に便利です)、このディスクを新しいディスクとして使用できます3。この場合、アレイはわずかなデータ破損で生き残りました。

申し訳ありませんが、おそらく手遅れです。この場合の正統的な答えの本質は次のとおりです。

非常に優れた冗長なRAIDが必要な場合は、LinuxでソフトウェアRAIDを使用してください。たとえば、そのraidスーパーブロックデータレイアウトは公開されており、文書化されています。


8
残念ながらこれは票を落としました。他のいくつかとは異なり、OPが混乱を修正するのを助けようとします。+1
バリティ14

3
@Valityは混乱を解決しようとせず、問題を拡大します。破損したブロックが焼き付けられたraid5は、整合性チェックに合格しますが、定期的に劣化するため、苦痛はありません。また、どのデータが破損しているのかもわかりません。ブロックを修正するのと同じくらい簡単な場合、それが標準的な解決策になります。
ジェームズライアン14

4
@JamesRyan後で問題が発生することに同意し、ここに根本的な問題があることにも同意します。ただし、一部の機能を取り戻す方法に関する有効なソリューションを提供します。OPがデータリカバリの専門家について話していたので、それ以外の場合はデータを取り戻すためのバックアップはないと想定できます。最終的に、このソリューションは修正の一部に過ぎません。この方法でシステムを再起動したら、おそらくファイルシステムを5つの新しいディスクに転送してから、重要なバックアップを行います。
バリティ14

1
「ブロックコピーツールのセクターレベルのコピーを簡単に作成できます」これは本当にあなたが書いたものですか?
アルノー・ムレット14

1
@MikeFurlenderハードウェアはより高速ですが、プロプライエタリであるため、故障した場合にまったく同じコントローラーを取得する必要があるため、脆弱です。ソフトウェアRAIDはハードウェアから独立しています。btrfsおよびzfsを参照してください。
マーティンUeding 14

38

二重ディスク障害があります。これは、データがなくなったことを意味し、バックアップから復元する必要があります。これが、大きなディスクでRAID 5を使用することになっていない理由です。RAIDを設定して、2つのディスク障害、特に大容量の低速ディスクに常に耐えられるようにします。


3
RAID5には2つの問題があります。1つ:低速のSATAドライブが大きくなる可能性があるため、3TBの再構築時間で、複合障害の可能性が高くなります。もう1つは回復不能なビットエラーレートです。ほとんどのSATAドライブのスペックシートには1/10 ^ 14のデータがあり、これは約-12TBのデータです。5ウェイ、3B RAIDでは、再構築が必要な場合、これはほとんど避けられません。
ソブリク14

1
3TB 5ドライブアレイでRAID5を使用していますが、2番目のアレイを最初のアレイの複製コピーとして使用することをいじっていました。そのため、データを失うためには、両方のアレイで同時に障害が発生するのに1台以上のディスクが必要になります(したがって4台のディスクが必要になります)が、使用可能な容量の大容量を維持します。これを読んだので、2番目の配列を取得するためにその時間枠を増やすことができます。
戦争14

1
彼はおそらく彼のdisk3に不良ブロックしか持っていません。プロのシステム管理者がブロックレベルのコピーツールから聞いたことがないのは本当に不思議です。
ペテルは、モニカを復元する14

1
@ウォーディ、レイド6はあなたにそれを与えませんか?
バジル14

3
非常に役立つ答えではありません。確かに、RAID 5で二重ディスク障害が発生すると、回復の可能性は低くなります。ただし、RAID 5での二重ディスク障害のほとんどは、おそらく1つの障害のあるディスクと、他のディスクのいくつかの修正されていない読み取りエラーの問題です。その場合、適切なツールを使用すれば、ほとんどのデータを回復できます。そのようなツールへのポインタが役立ちます。
カスペルド14

37

オプションは次のとおりです。

  1. バックアップからの復元。
    • あなたはやるあなたは、バックアップを持っていないのですか?RAIDはバックアップではありません。

  2. プロのデータ復旧
    • 非常に高価で保証はされていませんが、専門の回復サービスがデータを回復できる可能性があります。

  3. データ損失を受け入れ、経験から学ぶ。
    • コメントに記載されているように、再構築中に二重障害が発生してアレイに障害が発生する可能性があるため、RAID 5構成には大きなSATAディスクは推奨されません。
      • パリティRAIDである必要がある場合、RAID 6の方が適しています。次回もホットスペアを使用してください。
      • SASディスクは、信頼性、回復力、およびURE(回復不能な読み取りエラー)の原因となる回復不能なビットエラーの発生率の低下など、さまざまな理由で優れています。
    • 上記のように、RAIDはバックアップではありません。データが重要な場合は、データがバックアップされていること、およびバックアップが復元テストされていることを確認してください。

1
5台のディスク(OPによる)があり、ホットスペアにコミットしている場合、RAID6を介してRAID10を使用することになります...?
ジンボブマクジー14

1
まず、RAID 1 + 0で4つのスピンドルを使用して2つのディスクに相当するスペースを確保し、1つのディスクを「スペア」のままにします。2つの障害(少なくとも2つの障害)を許容できます。RAID6は3つのディスクに相当するスペースを提供し、2つの障害(2つ)にも耐えることができます。RAID1 + 0には、より優れたパフォーマンス機能があり、書き込みペナルティが低く、ランダム読み取りパフォーマンスが向上する可能性があります(2つのスピンドルのいずれかから読み取りを処理できます)。
ソブリク14

ポイント2の場合。データ復旧。RAID5からデータを専門的に回復することで、2万ドルの費用を簡単にかけることができます。さらに、OPは一晩で再構築を実行し、ディスクに負荷をかけます。これにより、リカバリがさらに困難になったり、不可能になったりする場合があります。事前に知らせてください。必ずすべてのディスクを送信してください。
OmnipotentEntity 14

4

他の人が示した理由により、同時故障は可能性があります。もう1つの可能性は、ディスクの1つがしばらく前に故障し、積極的にチェックしていないことです。

監視が、劣化モードで実行中のRAIDボリュームをすぐに検出することを確認してください。選択肢がなかったのかもしれませんが、BIOSからこれらのことを学ぶ必要はありません。


3
無視された監視に言及するための+1。ステップ「クリティカル」->「失敗」ではなく、ステップ「正常」->「クリティカル」に既に注意することが重要です。これは、他のすべてのタイプの冗長性(バックアップインターネット回線、地下のビール、スペアタイヤなど)にも同様に適用されます。
ハーゲンフォンアイゼン14

2

「2台のハードドライブがそのように同時に故障する可能性はありますか?」正確に、私はこの記事から引用したいと思います

議論の要点はこれです。ディスクドライブがますます大きくなると(2年で約2倍になります)、URE(回復不能な読み取りエラー)は同じ速度で改善されません。UREは、回復不能読み取りエラーの発生頻度を測定し、通常、読み取られたビットごとのエラーで測定されます。たとえば、1E-14(10 ^ -14)のUREレートは、統計的に、回復不能な読み取りエラーが1E14ビットの読み取りごとに1回発生することを意味します(1E14ビット= 1.25E13バイトまたは約12TB)。

...

議論は、ディスク容量が増加し、UREレートが同じレートで改善されない場合、RAID5再構築の失敗の可能性は時間とともに増加するということです。統計的に彼は、2009年にはディスク容量が十分に増加し、意味のあるアレイにRAID5を使用する意味がなくなったことを示しています。

したがって、2009年にはRAID5は安全ではありませんでした。RAID6も間もなく登場します。RAID1に関しては、3つのディスクから作成し始めました。4ディスクのRAID10も不安定です。


3
繰り返しになりますが、RAIDはバックアップの代替手段ではありません。使用可能なデータを保持するためにディスクを交換できる「バッファーゾーン」を追加することだけを目的としています。もう1つのオプションは、2つのアレイが同時に失敗することを必要とするレプリケーションを使用することです。
戦争14

個人的には、RAIDはバックアップではないというマントラは好きではありません。辞書には次のように書かれています。「必要に応じて、代替として機能するために予備として保管されている人、計画、デバイスなど」。冗長性の量が十分でない場合、代替として機能しません。RAIDが提供する冗長性を気にしない場合は、使用しないこともできます。オフディスクバックアップとオフサイトバックアップの代わりにならないという点は、まったく別の問題であり、(もちろん)私もそれに同意します。
ハーフガー

だから、冗長性のないRAIDストライプを使用している人たちについてはどう思いますか?この場合、RAIDアレイは純粋にパフォーマンス上の利点を得るために使用されます。これは完全に有効なIMOです。RAIDは2つの目的に役立ちます。 n個のドライブで障害が発生し、データが引き続き使用可能になっています。
戦争

RAIDを実装する人は、ニーズ、速度、信頼性、または2つの組み合わせに基づいて、使用するRAIDタイプを選択しますが、それでもRAIDをバックアップソリューションにすることはできません。
戦争14

1
RAIDはバックアップではないと言うとき、彼らは可用性について話していません。あなたは言葉で遊んでいるだけだと思う​​。:)
グレント

2

スレッドは古いですが、読んでいる場合は、ドライブがRAIDアレイで故障したことを理解し、ドライブの経過時間を確認してください。RAIDアレイに複数のディスクがあり、それらが4〜5年以上経過している場合、別のドライブが故障する可能性が高くなります。***続行する前に、画像またはバックアップを作成してください**。バックアップがあると思われる場合は、バックアップをテストして、読み取りと復元ができることを確認してください。

理由は、残りのドライブが何時間も何時間もフルスピードで回転するため、残りのドライブに何年もの通常の摩耗と裂け目が生じるからです。6年前のドライブの数が多いほど、ストレスにより別のドライブが故障する可能性が大きくなります。RAID5で、アレイを破壊した場合、バックアップはできますが、RAIDコントローラやその他のハードウェアの種類によっては、2TBのディスクを復元するのに8〜36時間かかります。

すべてのドライブが古い場合、運用サーバーのRAIDハイブ全体を定期的に交換します。なぜ1つのドライブを交換する時間がなかったのか、次のドライブが1日、1週間、1か月、2か月で故障するまで待ちます。ドライブと同じくらい安いですが、ダウンタイムの価値はありません。


1

通常、評判の良いリセラーからドライブを大量に購入する場合、ドライブが異なるバッチからのものであることを要求できます。これは上記の理由から重要です。次に、これがまさにRAID 1 + 0が存在する理由です。RAID 1 + 0で6台のドライブを使用していた場合、ボリュームの再構築が不要な即時冗長性を備えた9TBのデータがありました。


異なるバッチからのドライブの使用に関する部分が都市の神話以外のものであることを示す証拠はどこにありますか?また、RAID 1は、再構築中に読み取り不可能なセクターが実行されることを魔法のように保護しません。それに対する保護が必要な場合は、RAID 6または3つのミラーを備えたRAID 1を使用します(少し高価です)。
カスペルド

1
@kasperdコメントの最初の部分を形成する質問は似ていると思いますが、明らかに同じではありませんが、同様の障害時間の可能性を減らすために新しいRAID 1ペアのディスクを「実行」する必要がありますか?
CVn

1

コントローラーがLinux上のdmraid(たとえばここ)で認識されている場合、ddrescueを使用して障害のあるディスクを新しいディスクに回復し、ハードウェアコントローラーの代わりにdmraidを使用してアレイを構築できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.