概要
新しいハードウェアをインストールして以来、syslogでこれらの不可解なメッセージを受け取ってきましたが、問題が何なのか、それが深刻なものなのか、どうすればよいのかわかりません。
彼らは新しいSATA HBAからのものであり、彼らはパターンに従っています。5〜30秒後に、最初のメッセージのいくつかを受け取り、続いて2番目のメッセージのいくつかを受け取ります。それらはすべて同じ秒でログに記録され、それぞれの正確な量は約2〜35の間で変化します。エントリが表示されるまでに数分または数時間かかる場合があります。
2つのメッセージの例:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
常に0x31120303の後に0x31110d01が続きます。
mpt2sasは、私が使用しているSATAホストバスアダプターのドライバーですが、エラーの内容は非常にわかりにくいです。問題が何であるか、それがどのディスクまたはポートであるか、またはそれがどれほど深刻かはわかりません。
ハードウェア
Xeon E3-1220と8GBのRAMを搭載したSupermicro X9SCL。
LSI SAS2008ベースのSupermicro AOC-USAS2-L8I SAS / SATA HBAをSupermicro CSE-M35T-1Bディスクトレイセットに接続。3つのWestern Digital WD30EZRXと2つのSegate ST3000DM001が接続されています。すべての3TBドライブ(実際には正確に同数のセクター)。使用中のポートエクスパンダーはありません。
HBA、ディスクトレイ、および4つのドライブは新しいものです。WD30EZRXesの1つは何ヶ月も使用されており、問題はありませんでした。以前に統合されたIntel SATAコントローラーに接続していた場合、この新しいセットアップでドライブベイに移動しました。
HBAに問題があり、頻繁にリセットする必要があり、非常にひどいパフォーマンスを得ていました。ファームウェア/ BIOSを、Supermicroから入手可能な最新リリースである「フェーズ12」に更新し、タイプをITに変更しました(つまり、すべてのソフトウェアRAIDを使用するため、統合RAIDのパススルー、IRから):2008IT12.FW。この更新プログラムは初期の問題をすべて解決し、後日まで上記のメッセージを受け取り始めませんでした(以下を参照)。
追加した最初の4つのディスクはすべて、最初のSFF-8087ポートにあります(4つのSATAケーブルに分割)。私が追加した最新のディスクは、他のポートにあります(それが重要な場合)。
システム上の唯一の他のディスクにはOSが含まれており、統合されたSATAコントローラーに差し込まれている古いIntel 80GB SSDです。
ソフトウェア
Ubuntu 11.10(oneiric)。Linux 3.0.0-14-server x86_64。OSに付属のmpt2sasドライバーを使用します。
これらの5つのディスクでLinux mdを使用してRAID6アレイを構築しようとしています。3台のディスク、2台のSegate、および1台の新しいWDドライブの縮退アレイで開始しました。これは高速で非常にうまくいきました。ファームウェアの更新を行った後、ログにメッセージはありません。その間、私はまだ同じコントローラのポート0で古いWDディスクを使用しています。
他の新しいWDディスクをアレイに追加しました。再構築が開始され、現在これらのメッセージをsyslogに定期的に取得しています。ディスクをアレイに追加するのにどのくらいの時間がかかるかわかりませんが、推定時間(cat / proc / mdstat)は数千から数万分の範囲で、最初の3つのディスクよりもはるかに長くなります。私は、WDディスクの方がずっと遅いことを理解しています。複数のディスクに障害が発生する可能性を減らすために、さまざまなモデルを入手しました。これらは、2つの最も安価な3TBモデルでした。
ノート
SMARTは、ディスク上の問題を報告しません。どのディスクにもエラーは記録されておらず、障害の統計値もしきい値に近い場所にはありません。
ログに記録されたメッセージは、最後のディスクを追加した後にのみ表示され始めました。これは、問題がある可能性を示唆していますが、それを指し示すものは他にありません。
このドライバーからのログメッセージに対応していると思われるヘッダーファイルを見つけました。最初のメッセージは、リストにない「サブコード」0303の中止(コード12)のようです。2番目のメッセージは、明確ではない理由のためのリセット(コード11)です。0303と0d01が何を意味するかを判断できれば、それは非常に役立ちます。
5ディスクRAID6の4ディスクは不完全なアレイであることを知っています。4番目のディスクの統合が完了したら、古いディスクの内容をアレイにコピーし、古いディスクもアレイに追加する予定です。