3Ware 9650SE 8ドライブRAIDコントローラー、5ディスクRAID6アレイ、すべてのLinuxの仮想マシンホストとして機能するDebianサーバーがあります。問題が発生し続け、検出されない破損したディスクが疑われます。
ホストとすべてのゲストの両方がIOシステムが120秒以上ブロックされたと言っているクラッシュがいくつか発生しました。障害のあるRAIDコントローラーが疑われましたが、同じファームウェアで同じものに交換しましたが、修正されませんでした。2番目のRAID1アレイが正常に機能し続けたため、そうなるとは思いませんでした。
ほぼ1週間前(日曜日)、これが機能していたとき、自動検証は66%でした。昨夜(金曜日の朝)は67%でした。起動前と起動後の両方、および問題が発生している間の両方。で検証をオフにするとtw_cli /c0/u0 stop verify
、物事が再び反応するようになりました。
約66%でディスク障害が発生していると思われます。土曜日に自動検証が開始されます。
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
通常は金曜日までに長い間行われます。日曜日が66%、金曜日が67%であると考えると、偶然ではないでしょう。
すべてのドライブで「smartctl -a -d 3ware、0 / dev / twa0」および「smartctl -t long」(ロングSMARTセルフテスト)を実行してもエラーは表示されませんでした。どちらもしませんtw_cli /c0 show alarms
。
ディスクが検出しにくい方法で破損していると思われましたが、アレイから各ドライブを1つずつ取り出し、そこから「単一」のアレイを作成し、ゼロでいっぱいにddしました。エラーが表示されたディスクはありません。
または他のアドバイスはありますか?
編集:
これはレイアウトです:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
問題の単位はu0です。
edit2:
tw_cli / c0 show diagは何か面白いことを示します(edit3:これは無害ですsmartctl -a -d 3ware,X /dev/twa0
。Xが無効なポートである場合に呼び出しが原因であることがわかりました)。
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
私はこれらのトンを取得します。しかし、それが何を意味するのか分かりません。どのユニットまたはポートであるかを特定することさえできません。(edit3:私は今知っています、それは無害です)。
edit3を考えると、私は元の状態に戻りました。検証が66%でハングし、アレイがハングすることを除いて、ディスクが破損していることを示すものは何もありません。検証で障害が検出されることを望みます...