3Ware RAID6アレイがハングすることがあります。壊れたディスクが検出されませんか?
3Ware 9650SE 8ドライブRAIDコントローラー、5ディスクRAID6アレイ、すべてのLinuxの仮想マシンホストとして機能するDebianサーバーがあります。問題が発生し続け、検出されない破損したディスクが疑われます。 ホストとすべてのゲストの両方がIOシステムが120秒以上ブロックされたと言っているクラッシュがいくつか発生しました。障害のあるRAIDコントローラーが疑われましたが、同じファームウェアで同じものに交換しましたが、修正されませんでした。2番目のRAID1アレイが正常に機能し続けたため、そうなるとは思いませんでした。 ほぼ1週間前(日曜日)、これが機能していたとき、自動検証は66%でした。昨夜(金曜日の朝)は67%でした。起動前と起動後の両方、および問題が発生している間の両方。で検証をオフにするとtw_cli /c0/u0 stop verify、物事が再び反応するようになりました。 約66%でディスク障害が発生していると思われます。土曜日に自動検証が開始されます。 # tw_cli /c0 show verify /c0 basic verify weekly preferred start: Saturday, 12:00AM 通常は金曜日までに長い間行われます。日曜日が66%、金曜日が67%であると考えると、偶然ではないでしょう。 すべてのドライブで「smartctl -a -d 3ware、0 / dev / twa0」および「smartctl -t long」(ロングSMARTセルフテスト)を実行してもエラーは表示されませんでした。どちらもしませんtw_cli /c0 show alarms。 ディスクが検出しにくい方法で破損していると思われましたが、アレイから各ドライブを1つずつ取り出し、そこから「単一」のアレイを作成し、ゼロでいっぱいにddしました。エラーが表示されたディスクはありません。 または他のアドバイスはありますか? 編集: これはレイアウトです: # tw_cli /c0 show Unit UnitType Status %RCmpl %V/I/M Stripe …