パンクチャドRAIDアレイから回復する


10

これが私の状況です。

Dell Perc 7iコントローラ(LSIコントローラ)を搭載したDellサーバーがあります。

ドライブに故障予測の警告が表示されたので、サポートに連絡し、ドライブを交換してアレイを再構築しましたが、かなり標準的なものでした。

2週間後、別のドライブで「障害予測」の警告が表示されます。おそらくドライブのバッチが悪いか、偶然の一致などだと思ったので、サポートに連絡して詳細を調べます。故障していない他のドライブの1つに不良ブロックがあり、それらの不良ブロックは再構築中にコピーされたことがわかりました。だから今私はいたるところに不良ブロックを持っていて、それらはゆっくりと私の配列を殺しています。これがパンクチャドアレイと呼ばれることがわかりました。

したがって、彼らのアドバイスは、すべてのドライブを交換し、アレイを再構築し、バックアップから復元することでした。数週間この問題が発生していることを除いて、バックアップが不良であることを意味します...以前(1か月前)のバックアップから復元すると、データベースから約4週間分のデータが失われます。私たちのオフィスにはまったく受け入れられません。

私の質問は...データを失うことなく、または全体(それを窓から投げ出してやり直す)アプローチなしに、このような何かから回復した人はいますか?

私のシナリオをカバーする1つのリンクが見つかりましたが、状況に光を当てているかどうかはわかりません:http : //www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

どんな助けや指示もいただければ幸いです!皆さんはどう思いますか?

回答:


15

私が想定しているシステムはまだ稼働しているので、最善の方法は、すぐにバックアップを作成し、ディスク/アレイをダンプして、再構築し、バックアップから復元することです。

不良ブロックは、常にバックアップが悪いことを意味するわけではありません。パフォーマンスの問題やファイルの損傷を経験していない場合でも、バックアップは復元を完了するのに十分なものであるはずです。

テストするには、最新のバックアップを取り、最も重要なデータを調べます。それでも問題がない場合は、おそらく適切なバックアップがあります。

この時点では、バックアップが適切であるか、バックアップしてもファイルが失われないことを100%確実に確認できないため、リスクが伴います。ただし、アレイ最終的に失敗し、とにかく復元を強制するため、これが唯一の実際のオプションです。


現時点では、すべてが正常に動作しているようです。したがって、システムの完全なバックアップを今すぐ作成でき、ドライブを交換し、アレイを再構築し、その完全なバックアップを復元した場合、この障害が再発する危険性がありますか?または、リスクを最小限に抑えるために、OSとソフトウェアを再インストールし、データベースのみを復元する方が良いですか?
user72593

通常、不良ブロックはファイルレベルでは発生しません。これは、破損したファイルを見つけた場合にのみ行います。
ネイサンC

@NathanC「不良ブロック」を取得せず、破損したデータを取得します。
JamesRyan 2014年

@ user72593今日ファイルをバックアップできるからといって、ファイルが欠落しないわけではありません。何が良いかを確認する唯一の方法は、それをバックアップと比較することです。
JamesRyan 2014年

1
@JamesRyan「不良ブロック」は、スワップ、一時ファイル、または以前は使用されていたが現在は未使用のスペースを含む、ディスクの任意の場所にあります。ドライブに不良ブロックがある場合でも、データが失われたとは限りません。
ネイサンC

8

この瞬間に、次の操作を行います。

  • このシステムのバックアップの循環または古いバックアップの削除を停止します。現在保持しているすべてのバックアップを保持したい。
  • サーバーの完全バックアップを取ります。

うまくいけば、ディスクはデータが完全であるほど十分良好であり、新しい完全バックアップの実行で問題が発生することはありません。

次に、それらのディスクをスクラップし、新しいRAIDアレイを構築します。準備ができたら、今作成したバックアップから復元してみてください。運が良ければ、それで十分です。

それが失敗した場合は、次に古いものを試してみてください。システムが起動したからといって、システムが完全に機能しているわけではありません。特に、データベースの破損をテストします。

古いバックアップからシステム全体を復元する必要がある場合は、問題ありません。最新のバックアップを取り、データベースファイルと他の重要なファイルのみを復元します。それらをテストして、正しく機能することを確認します。繰り返しますが、それが失敗した場合は、次に古いものを試してください。

このプロセスを使用すると、データの損失が最小限に抑えられます。


それは私の質問に答えます。私のバックアップが無傷である限り、それでいいのですが、そうでなければ...私はそれに対処する必要があります。ありがとう。
user72593

4

GrantとNathan Cによって提供された回答は、バックアップ/復元の処理、およびデータの整合性への対処においてどのように進めるべきかに関して素晴らしいものです。

仮想ディスクを再作成してバックアップから復元するときにRAIDセットを処理する方法について、より明確な詳細を以下に示します。

  • データの適切なバックアップがあることを確認します
  • 既存の仮想ディスクを削除します。その後、すべてのディスクが「準備完了」状態で表示されます
  • 新しい仮想ディスクを再作成します。推奨設定:適応先読み、書き戻し、およびディスクキャッシング無効
  • バックグラウンド初期化が進行中のオンライン仮想ディスクが必要です。
  • バックアップからの復元を続行します。バックグラウンド初期化は通常、7.2Kスピンドルで約600GB / hrで実行されるので、バックアップの復元がそれよりも高速に実行できる場合は、最初に先に開始してください。戻す。

:RAID5を使用していた場合は、今回はRAID6の使用を真剣に検討する必要があります。RAID5は、このサイズのアレイに関する現在の業界標準のベストプラクティスに従って、ビジネスクリティカルなデータに対して信頼性がありません。また、大容量のSATA / NL-SASディスクは、再構築中にUREに遭遇するリスクが高く、その結果、処理しているようなパンクが発生します。RAID6はこのリスクを大幅に軽減し、現在利用可能なドライブ容量を持つ重要なデータには一般的に受け入れられます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.