継続的なmpt2sas syslogメッセージの解読

15

概要

新しいハードウェアをインストールして以来、syslogでこれらの不可解なメッセージを受け取ってきましたが、問題が何なのか、それが深刻なものなのか、どうすればよいのかわかりません。

彼らは新しいSATA HBAからのものであり、彼らはパターンに従っています。5〜30秒後に、最初のメッセージのいくつかを受け取り、続いて2番目のメッセージのいくつかを受け取ります。それらはすべて同じ秒でログに記録され、それぞれの正確な量は約2〜35の間で変化します。エントリが表示されるまでに数分または数時間かかる場合があります。

2つのメッセージの例：

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

常に0x31120303の後に0x31110d01が続きます。

mpt2sasは、私が使用しているSATAホストバスアダプターのドライバーですが、エラーの内容は非常にわかりにくいです。問題が何であるか、それがどのディスクまたはポートであるか、またはそれがどれほど深刻かはわかりません。

ハードウェア

Xeon E3-1220と8GBのRAMを搭載したSupermicro X9SCL。

LSI SAS2008ベースのSupermicro AOC-USAS2-L8I SAS / SATA HBAをSupermicro CSE-M35T-1Bディスクトレイセットに接続。3つのWestern Digital WD30EZRXと2つのSegate ST3000DM001が接続されています。すべての3TBドライブ（実際には正確に同数のセクター）。使用中のポートエクスパンダーはありません。

HBA、ディスクトレイ、および4つのドライブは新しいものです。WD30EZRXesの1つは何ヶ月も使用されており、問題はありませんでした。以前に統合されたIntel SATAコントローラーに接続していた場合、この新しいセットアップでドライブベイに移動しました。

HBAに問題があり、頻繁にリセットする必要があり、非常にひどいパフォーマンスを得ていました。ファームウェア/ BIOSを、Supermicroから入手可能な最新リリースである「フェーズ12」に更新し、タイプをITに変更しました（つまり、すべてのソフトウェアRAIDを使用するため、統合RAIDのパススルー、IRから）：2008IT12.FW。この更新プログラムは初期の問題をすべて解決し、後日まで上記のメッセージを受け取り始めませんでした（以下を参照）。

追加した最初の4つのディスクはすべて、最初のSFF-8087ポートにあります（4つのSATAケーブルに分割）。私が追加した最新のディスクは、他のポートにあります（それが重要な場合）。

システム上の唯一の他のディスクにはOSが含まれており、統合されたSATAコントローラーに差し込まれている古いIntel 80GB SSDです。

ソフトウェア

Ubuntu 11.10（oneiric）。Linux 3.0.0-14-server x86_64。OSに付属のmpt2sasドライバーを使用します。

これらの5つのディスクでLinux mdを使用してRAID6アレイを構築しようとしています。3台のディスク、2台のSegate、および1台の新しいWDドライブの縮退アレイで開始しました。これは高速で非常にうまくいきました。ファームウェアの更新を行った後、ログにメッセージはありません。その間、私はまだ同じコントローラのポート0で古いWDディスクを使用しています。

他の新しいWDディスクをアレイに追加しました。再構築が開始され、現在これらのメッセージをsyslogに定期的に取得しています。ディスクをアレイに追加するのにどのくらいの時間がかかるかわかりませんが、推定時間（cat / proc / mdstat）は数千から数万分の範囲で、最初の3つのディスクよりもはるかに長くなります。私は、WDディスクの方がずっと遅いことを理解しています。複数のディスクに障害が発生する可能性を減らすために、さまざまなモデルを入手しました。これらは、2つの最も安価な3TBモデルでした。

ノート

SMARTは、ディスク上の問題を報告しません。どのディスクにもエラーは記録されておらず、障害の統計値もしきい値に近い場所にはありません。

ログに記録されたメッセージは、最後のディスクを追加した後にのみ表示され始めました。これは、問題がある可能性を示唆していますが、それを指し示すものは他にありません。

このドライバーからのログメッセージに対応していると思われるヘッダーファイルを見つけました。最初のメッセージは、リストにない「サブコード」0303の中止（コード12）のようです。2番目のメッセージは、明確ではない理由のためのリセット（コード11）です。0303と0d01が何を意味するかを判断できれば、それは非常に役立ちます。

5ディスクRAID6の4ディスクは不完全なアレイであることを知っています。4番目のディスクの統合が完了したら、古いディスクの内容をアレイにコピーし、古いディスクもアレイに追加する予定です。

— クリス・スミス
ソース

5

最善の策は、ディスクとsas raidコントローラーを含むハードウェアの問題です。試すことをお勧めします：

利用可能な場合、ベンダーの診断ツールを実行します
ケーブルの確認/再取り付け/交換
ハードウェアコンポーネントを取り除き、コントローラ自体を含むRAIDコントローラにディスクを接続するチェーン内のハードウェアを交換します（つまり、マザーボード統合RAID以外のものを試してください）。

2つの同一のDell PowerEdge R515のうち1つに非常によく似たメッセージが表示されました（正確な数値コードはありませんが、ログは定期的にmpt2sas0メッセージでいっぱいになります）。デル独自のブータブル診断は、これらを「ハードウェアエラー」として検出し、RAID SASバックプレーンを交換することで問題を解決しました。

調査していたときに、さまざまなmpt2sas0エラーコードの意味を網羅したリソースが見つかりませんでした。ハードウェアベンダー固有のものである可能性もあります（SASについて詳しく知っている人は、これを確認または拒否する必要があります）。そのため、エラーコードは大きく異なるものを意味する可能性がありますが、SMARTがクリーンな場合、mpt2sas0がエラーコードを報告する他の適切な理由を想像することは困難です。

これらのエラーは非常に深刻です。私のR515は、これらのメッセージで12ディスクのUbuntu LinuxソフトウェアRAID 6を使用して1週間問題なく動作したように見えましたが、その後、壊れた（！）

また、私の場合、すべてのディスクのSMARTは完全にクリーンでした。適切なチェックは、スマートな自己診断テストです：smartctl -t long /dev/sdX、そして1日後に結果をチェックしますsmartctl -l selftest /dev/sdX。すべてが問題なければ、テストは言うべきでCompletedあり、LBA_first_err列は空であるはずです。

— リッカード・アーミエント
ソース

注：RAIDコントローラー（実際にはHBA）は既に別のカードです。オンボードSATAコントローラーは正常に動作します。交換用のSFF-8087ケーブルを注文していますが、明日にはここに来るはずです。それがこの時点で私の一番の容疑者です。

— クリススミス

悪いケーブルが問題でした！両方のケーブル（2つのSFFポート）をいくつかの高品質のケーブルに交換しましたが、それ以降は問題ありません。これは最長であり、不良ケーブルを示唆しているので、私はあなたの答えを受け入れます。PS間違いなく長いSMARTテストを行いました。どのディスクでも問題はありません。

— クリススミス

問題を発見したと聞いてうれしいです。受け入れてくれてありがとう。

— リッカードアルミエント

私にとっては、Dell PowerEdgeプラットフォームの場合にもこの問題に遭遇することは本当に奇妙です。問題はケーブルでも同じ結果

— でした...-Mazeryt

3

うわー、難しいもの。

これは、デバイスの1つが高負荷になっているため、0x31120303がバスリセットであることを示しているようです。また、あなたはそれを心配する必要はないと言います。（ハハ、そうだね。）

これは、デバイスの1つがコマンドに応答するのに時間がかかりすぎるため、これらのログメッセージが発生していることを示しています。これは同じことを言っており、またそれが重い負荷の下で発生することを示しています。

これは完全な回答ではありませんが、有益な方向を示すことを願っています。

— マイケル・ハンプトン
ソース

私はそれらの投稿のいくつかを見ましたが、正確なメッセージが得られたことを見つけることができませんでした。悪いSFF-8087-> SATAケーブルであることが判明しました。助けてくれてありがとう！

— クリススミス

0

これは、ディスクに何らかのエラーがあることを意味します。これは、LSIのSASコントローラーにあるSATAディスクであり、エラーのためにすべての未処理の要求が中止されました。

ほとんどの場合、このエラーのトリガーとなるディスクに中程度のエラーがあります。このエラー自体は中程度のエラーを意味するものではなく、他のヒントがないかログを確認して、元のディスク障害の原因を特定する必要があります。

少し詳細なバージョン：http : //blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— バルク・イーブン
ソース

興味深い投稿、共有してくれてありがとう！SATAは安っぽいプロトコルですが、ディスクは安価で、必要なことを行います。障害のあるケーブルを交換してから、メッセージは再表示されません。

— クリススミス14年

1

：その他のLSI LOGINFOの復号することは、私はそれを解読するために作成したユーティリティを使用して見つけることができますblog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— バルークでも