Areca 1280ml RAID6ボリュームセットが失敗しました


10

今日、私たちはある種の最悪のシナリオに遭遇し、あらゆる種類の良いアイデアを受け入れています。

ここに私たちの問題があります:

仮想マシンをホストするために、いくつかの専用ストレージサーバーを使用しています。続行する前に、仕様は次のとおりです。

  • 専用サーバーマシン
  • Areca 1280ml RAIDコントローラー、ファームウェア1.49
  • 12x Samsung 1TB HDD

1つの論理ボリュームを含む10枚のディスクで1つのRAID6セットを構成しました。システムには2つのホットスペアがあります。

今日、1台のHDDが故障しました。これは時々発生するため、交換しました。2枚目のディスクの再構築に失敗しました。通常、これは面白くありません。安定したRAID再構築を確実にするために、重いIO操作を停止しました。

悲しいことに、再構築中にホットスペアディスクが失敗し、すべてが停止しました。

今、私たちは次の状況にあります:

  • コントローラはレイドセットが再構築中であると言います
  • コントローラは、ボリュームが失敗したと言います

これはRAID 6システムであり、2枚のディスクに障害が発生したため、データをそのままにする必要がありますが、データにアクセスするためにボリュームを再びオンラインにすることはできません。

検索中に、次のリードが見つかりました。それらが良いか悪いかはわかりません:

  1. すべてのディスクを2番目のドライブセットにミラーリングします。ですから、すでに持っている以上のものを失うことなく、別のことを試す可能性があります。

  2. R-Studioでアレイを再構築しようとしています。しかし、ソフトウェアについての実際の経験はありません。

  3. すべてのドライブを引き出し、システムを再起動し、arecaコントローラのBIOSに変更し、HDDを1つずつ挿入します。これによってシステムがオンラインになったと言う人もいます。一部は効果がゼロであると言っています。彼らはすべてを吹き飛ばしたと言う人もいます。

  4. 「レスキュー」や「LeVel2ReScUe」などの文書化されていないarecaコマンドを使用する。

  5. コンピュータフォレンジックサービスに連絡する。しかし、おっと...電話での主な見積もりは20.000€を超えました。だからこそ私たちは親切に助けを求めます。多分私達は明白を欠いていますか?

もちろん、バックアップがあります。ただし、一部のシステムでは1週間分のデータが失われたため、システムを再稼働させたいと考えています。

ヘルプ、提案、質問は大歓迎です。


3
私はあなたが何をするにせよ、あなたの最初のステップddはすべてのディスクのミラーであるべきだと主張します。
スヴェン

これを行います...
Richard

1
ホットスペアはどうですか?
Cawflands

1
ベンダーにサポートを依頼できますか?あなたができない(そして、@ SvenWの優れた提案に従って、すべてをミラーリングするためにddを使用した)と仮定して、故障したドライブを交換し、再起動して、何が起こるか見てみませんか?必ずしもすべてのドライブをプルするのではなく、故障したドライブのみをプルします。しかし、実際、あなたの最初の賭けはベンダーであり、彼らは彼らのソフトウェアを理解しています。
ジェレミー

解決策を見つけましたか?もしそうなら、将来の参考のためにそれが何であったかを知らせてください!
'56年

回答:


2

オプション1が最適だと思います。

12xの新しいHDD、1xの新しいRAIDコントローラーを使用するLinuxボックスを使用して、古いディスクを1:1で新しいディスクにミラーリング(dd if = of =)してみます。1x新しいRAIDコントローラーと12x新しいHDDを使用して新しいサーバーを構築する

新しいサーバーでアレイを再構築してみます。成功?すごい。やめる。
再構築に失敗しましたか?古いディスクをもう一度新しいディスクにミラーリングし、オプションi + 1を試してください


0

これは残念ながら非常に一般的なシナリオです。この数年前にGoogleによる優れた調査があり、RAIDでデータを失うとアレイの再構築中に発生する可能性があることがわかりました。これは、重大度の異なるさまざまなRAIDシステムに影響を与える可能性があります。RAID6のシナリオは次のとおりです。

  • アレイには3つのデータと2つのパリティディスクがあります。
  • 1つのディスクを紛失した場合でも、すべてのデータが確実に回復可能です。
  • 2つのディスクを失うと、データを失います

何故ですか?

次のことを考えてみましょう。データをいくつか持って、ファイルの最初の3ブロックが次のデータブロックであると仮定します。A1+ A2 + A3および次のパリティ:Ap + Ap hdd1 ... hdd5

1と3の間の2つのディスクを失うと、データが回復できないためにデータが失われ、パリティが2つとデータブロックが1つあります。

これで、10台のディスクを使用する同じシナリオは異なる場合がありますが、データを8つのブロックに分割し、パリティを他の2つのドライブに保存し、2つのホットスペアを持つ場合と同じように処理されたと思います。RAIDコントローラ構成の詳細を知っていますか?

私はオフサイトのバックアップからリカバリを開始します(おそらくいくつかあると思います)。サービスは、Unixを使用して、可能な限り多くのデータをリカバリしようとしています。たとえば、ドライブをイメージにddしたり、ループデバイスとして使用したりしています。

http://wiki.edseek.com/guide:mount_loopback

RAIDコントローラーが使用するメタデータの種類を知っている必要があります。運が良ければ、それはdmraidなどのツールでサポートされます。

ただし、これはデータを回復できるという意味ではありません。ファイルは通常、多くのブロックに分散されているため、回復によってデータが戻されない可能性があります。

RAIDの詳細:

https://raid.wiki.kernel.org/index.php/RAID_setup

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.