3Ware RAID6アレイがハングすることがあります。壊れたディスクが検出されませんか？

13

3Ware 9650SE 8ドライブRAIDコントローラー、5ディスクRAID6アレイ、すべてのLinuxの仮想マシンホストとして機能するDebianサーバーがあります。問題が発生し続け、検出されない破損したディスクが疑われます。

ホストとすべてのゲストの両方がIOシステムが120秒以上ブロックされたと言っているクラッシュがいくつか発生しました。障害のあるRAIDコントローラーが疑われましたが、同じファームウェアで同じものに交換しましたが、修正されませんでした。2番目のRAID1アレイが正常に機能し続けたため、そうなるとは思いませんでした。

ほぼ1週間前（日曜日）、これが機能していたとき、自動検証は66％でした。昨夜（金曜日の朝）は67％でした。起動前と起動後の両方、および問題が発生している間の両方。で検証をオフにするとtw_cli /c0/u0 stop verify、物事が再び反応するようになりました。

約66％でディスク障害が発生していると思われます。土曜日に自動検証が開始されます。

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

通常は金曜日までに長い間行われます。日曜日が66％、金曜日が67％であると考えると、偶然ではないでしょう。

すべてのドライブで「smartctl -a -d 3ware、0 / dev / twa0」および「smartctl -t long」（ロングSMARTセルフテスト）を実行してもエラーは表示されませんでした。どちらもしませんtw_cli /c0 show alarms。

ディスクが検出しにくい方法で破損していると思われましたが、アレイから各ドライブを1つずつ取り出し、そこから「単一」のアレイを作成し、ゼロでいっぱいにddしました。エラーが表示されたディスクはありません。

または他のアドバイスはありますか？

編集：

これはレイアウトです：

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

問題の単位はu0です。

edit2：

tw_cli / c0 show diagは何か面白いことを示します（edit3：これは無害ですsmartctl -a -d 3ware,X /dev/twa0。Xが無効なポートである場合に呼び出しが原因であることがわかりました）。

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

私はこれらのトンを取得します。しかし、それが何を意味するのか分かりません。どのユニットまたはポートであるかを特定することさえできません。（edit3：私は今知っています、それは無害です）。

edit3を考えると、私は元の状態に戻りました。検証が66％でハングし、アレイがハングすることを除いて、ディスクが破損していることを示すものは何もありません。検証で障害が検出されることを望みます...

3ware

— ハーフガー
ソース

どのHDD？正式にサポートされていますか？

— grs

レイアウトを追加しました。ディスクはST32000542ASです。それらはサポートされていますが、さらに、サーバーは3年間正常に機能しました。

— ハーフガー

一部のWDドライブが、ある時点でverrryyyy遅くなるという問題がありました。hdparm（悲しいことにここではできません）のみが、通常の80〜100MB / sではなく、〜300KB / s（yes K！）のスルー出力を示しました。

— ベンジャミンソンタグ14年

1

エンタープライズとデスクトップドライブのディスクの違いは、それらがバグを解決することです。エンタープライズドライブでエラーが発生した場合、ディスクはRAIDから外れます。（データを保存するリスクに敏感で、その代価を支払おうとする企業のように）デスクトップドライブが障害に遭遇すると、すべてのタイムアウトが終了するまで持続しようとします。（ユーザーがドライブを1つ、到達する必要のあるデータを取得し、ディスクを一度に落とすと、メーカーは非常に苦痛になります）ST32000542ASは静かで経済的なデスクトップバージョンのディスクです。たとえば、goo.gl / rWb5lj

— 14

実際、ごく最近、このサーバーは元の問題とは異なる方法で、より深刻に突然ハングし、ログはRAIDポートでタイムアウトを示しました。タイムアウトは、エンタープライズドライブの1つで発生しました（現在、このサーバーにはさらにあります）。

— ハーフガー14

1

これまでに取り上げられなかった2つのこと：

これはSATA RAIDコントローラーですか？その場合、SATAケーブルは経年劣化する傾向があり、それらを交換するとそのような問題を簡単に解決できる可能性があります。ほとんどの場合、これはディスクエラー、遅延、タイムアウトが発生したときに試行できますが、SMART値はすべて問題なく、ドライブはすべてのセルフテストに合格します。残念ながら、優れたSATAケーブルベンダーを見つけることは困難です。
3Ware RAIDコントローラーは古く、最近サポートされていません。ファームウェアのアップグレードもスペアパーツも入手できません。コントローラーが故障した場合、コントローラーとファームウェアが一致しないとRAIDが回復不能になる可能性があります。その場合、高価なデータリカバリが必要になります。

— フロック
ソース

0

この問題は、ディスクの1つで読み取りエラーが発生し、セクターの再割り当てに成功するか、RAIDコントローラーがドライブが停止していると判断してアレイからブートし、「劣化」としてマークされるまでアレイ全体をブロックすることが原因である可能性があります（これは完全に問題のコントローラー次第です）。これは、ディスクが死に始めているが、SMARTに合格している場合に頻繁に発生する可能性があります。ほとんどのコンシューマディスクは、読み取りを永遠に試行し続けます。

この問題は、エラー回復制御と呼ばれるものを使用して、RAID向けの一部のドライブで解決されます。WDはこのTLERを呼び出します。サイトから：

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

基本的に、セクターを読み取れない場合、x秒後にあきらめるようにディスクに指示します。データは別のディスクから復元される可能性があるため、これはRAIDで優れています。

私が読んだことから、ST32000542ASはどの形式のERCも実装していないため、それらのいずれもアレイ全体をブロックできます。WD2002FYPSは実際にWDのTLERを実装しているため、この問題は発生しません。

— succulent_headcrab
ソース

0

念のため、ファームウェアのバージョンは何ですか？

次の要件が満たされている場合、私が経験した問題-あなたが説明しているものによく似ているように聞こえます-がありました：

3ware 96xxシリーズコントローラー
RAID 6
256kストライプサイズ
ファームウェアバージョン<v4.10.00.021 *

当時はファームウェアの修正がなかったため、256kから64kのストライプサイズに移行し、問題も解決しました。回避策として試すこともできますが、完了するには数日かかります。

その後、256kで新しいファームウェア（* 4.10.00.021は修正されたと思います）を試してみましたが、とても魅力的でした。4.10.00.027が最新バージョンです。

— Acrklor
ソース

もう問題はありません。検証は常に成功しました。しかし、数か月前に（長い間何の問題もなく）サーバーが完全にハングしました。Dmesgは、disk xがタイムアウトしたと言いました。コントローラーがそれをキックしなかった理由はわかりませんが、明示的に劣化としてマークされていなくても、交換しました。また、それ以降、他のディスクも交換されています。したがって、ディスクの問題である可能性があります。

— Halfgaar 14年

0

以前は3wareコントローラーとSeagateドライブに問題がありました。微妙なファームウェアの非互換性があります。Samsungドライブに切り替えて問題を解決しました。

— ズデネク
ソース