3WAREのtw_cliは、「DEGRADED」ディスクと「ECC-ERROR」の意味を教えてください。


10

3ware 9650SE-16MLカードに悲しいRAIDアレイがあります。私がわからないことは、私が二重ディスク障害(バマー!)を経験したばかりか、これを間違って読んでいるかどうかです。の関連出力/c0 show allは次のとおりです。

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

そして失敗は(からshow alarms)です:

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

私は考えて何が起こったことはP0が失敗していること、そしてp1は(別名、私のデータがなくなっている)のECCエラーが発生しました。しかし...多分そうではありませんか?再構築後は97%のままですが、このエラーを回避することはできません。

私の知る限りでは、前の管理者が定期的な検証をオフにしたため、この状態になりました。これは、ほとんどの人が3Ware RAIDで心配する必要のあることではありません。

更新

数日間それを打った後、私はIgnoreECCビットを実行し、それを再構築しましたが、私のデータはホースされています。残念。


重要なデータが含まれている場合は、フリーザー回復法を試してください。
クリスS

私はフリーザーのトリックに反対しているわけではありませんが、「ドライブが死んだ」だけでなく、特定の故障モードではありませんか?
Bill Weiss、

DEGRADEDというラベルの付いたディスクは、REBUILD操作のターゲットディスクです。
wazoox

回答:


7

ECCエラーは、ドライブに少なくとも1つの読み取り不可能なセクターがあることを意味します。ただし、運が良ければ、そのセクターは実際にはそのボリュームにあるファイルシステムで使用されない可能性があるため、この状態でもアレイからデータをコピーできる場合があります。

再構築中にECCエラーを無視するいくつかのオプションもあります。

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

ただし、これらのオプションを使用すると、不良セクターの影響を受けるRAIDストライプが破損します(この場合、カードが正確に何を行うかわかりません。ストライプ全体がゼロに、またはランダムデータに置き換えられる可能性があります)。リカバリされた」アレイは実際には検出できない破損を持っている可能性があります(影響を受けるストライプがデータファイルの途中にあった場合)。再構築を試みる前に、配列から他の場所にデータをコピーする方が安全かもしれません(少なくとも、不良領域を読み取ろうとするとエラーが発生するはずです)。

アレイのスケジュールされた検証をセットアップして、読み取り不能のセクターを早期にキャッチして、不良になったドライブを交換できるようにする必要があります。


現在、ignoreECCビットを実行しています。私のデータには見栄えがしません。
ビルワイス

1
そして、そうです、アレイに時々検証を行わせる必要があります。これを設定した人がパフォーマンス上の理由でそれをオフにしたと推測します:(
Bill Weiss

まあ、それは再構築を通してそれを手に入れましたが、私のデータにノミングされました。残念。それは私たちに検証をオフにするように教えます...
ビル・ワイス

4

私は物理ドライブ(p0)の状態が低下したことを経験したことがありませんが、ECC-ERRORドライブまたは低下したドライブを、

/c0 p1 remove

その後、再スキャンを発行します

/c0 rescan

それらを経由してレイドユニットに戻します

maint rebuild c0 u0 p1

ECC-ERRORで失敗したSATAドライブは、再び失敗するまでに数時間でも復活することができました。


3
現在の状態でp1ドライブを取り外すと、アレイが完全にホース化される可能性があります。
Sergey Vlasov

私はこれをp0ドライブで(それが悪いものであると想定して)行い、再構築しようとしていますが、ほとんどすぐにドライブに劣化とマークされました。残念。
Bill Weiss

1
AFAIRの場合、ドライブは再構築中、DEGRADEDとしてマークされたままになります—たとえば、こちらを参照してください。アレイのステータス(REBUILDINGなど)は重要です。
Sergey Vlasov、2011年

うーん。実際に再構築しています... 4つのドライブすべてが頻繁に点滅しています。これは良い兆候ですよね?
Bill Weiss

Stiiiiiil再構築中... 4時間後に37%になります。残念。
Bill Weiss、

2

データが失われた可能性が高いです。ECCエラーは、このディスクからの読み取り中に回復不可能なエラーを意味します。

バックアップがない場合は、アレイの現在の状態をダンプしてみることができます。これは、コントローラーがデータを失ったのか、それとも空の領域なのかを知らないために可能になる可能性があります(ファイルシステムに対する洞察が不足しています)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.