I / OエラーでいっぱいのDmesg、スマートok、影響を受ける4つのディスク

新規インストールされたリモートサーバー（Dell Poweredge）で作業しています。4つのドライブ（2TB）と2つのSSD（250 GB）があります。1つのSSDにはOS（RHEL7）が含まれ、4つのメカニカルディスクには最終的にOracleデータベースが含まれます。

ソフトウェアRAIDアレイを作成しようとすると、ディスクが常に障害としてマークされます。dmesgをチェックすると、次のエラーが大量に出力されます。

[127491.711407] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719699] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127491.719717] sd 0:0:4:0: [sde] Sense Key : Aborted Command [current]
[127491.719726] sd 0:0:4:0: [sde] Add. Sense: Logical block guard check failed
[127491.719734] sd 0:0:4:0: [sde] CDB: Read(32)
[127491.719742] sd 0:0:4:0: [sde] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127491.719750] sd 0:0:4:0: [sde] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127491.719757] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719764] Buffer I/O error on dev sde, logical block 488378260, async page read
[127497.440222] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.440240] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.440249] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.440258] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.440266] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.440273] sd 0:0:5:0: [sdf] CDB[10]: 00 01 a0 00 00 01 a0 00 00 00 00 00 00 00 00 08
[127497.440280] blk_update_request: I/O error, dev sdf, sector 106496
[127497.901432] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.901449] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.901458] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.901467] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.901475] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.901482] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.901489] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911003] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.911019] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.911029] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.911037] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.911045] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.911052] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.911059] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911067] Buffer I/O error on dev sdf, logical block 488378260, async page read

これらのエラーは、4つのメカニカルディスク（sdc / sdd / sde / sdf）のすべてで発生します。SMARTctlは、ロングテストとショートテストの4つのディスクすべてに合格しました。私は現在badblocksを実行しています（書き込みモードのテストは約35時間で完了し、おそらくあと35時間かかります）。

以下は、私が研究で疑った/考えたエラーです

故障したHDD-4つの「再生」ディスクがDOAになる可能性は低いようです。
ストレージコントローラーの問題（不良ケーブル？）-SSDにも影響があるようです。
- カーネルの問題、標準カーネルへの唯一の変更は、kmod-oracleasmの追加でした。ASMがまったくセットアップされていないため、これらの障害がどのように発生するかは本当にわかりません。

もう1つの注目すべきイベントは、ディスクのゼロ化を試みたとき（初期のトラブルシューティングの一部）、コマンド$ dd if = / dev / zero of = / dev / sdXを使用すると、これらのエラーが発生しました。

dd: writing to ‘/dev/sdc’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70583 s, 32.0 MB/s
dd: writing to ‘/dev/sdd’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70417 s, 32.0 MB/s
dd: writing to ‘/dev/sde’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71813 s, 31.7 MB/s
dd: writing to ‘/dev/sdf’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71157 s, 31.9 MB/s

ここの誰かがこれを引き起こしている可能性があることについて何らかの洞察を共有できれば、私は感謝します。ここでは、occamのかみそりをたどってHDDに直行する傾向がありますが、唯一の疑いは、4つの故障したHDDが箱から出されていない可能性にあります。

私は明日現場に車で視察し、このマシンの評価を上層部に報告します。物理的に検査する必要がある場合（ケーブル/接続/電源以外）は、お知らせください。

ありがとう。

— Scu11y
ソース

SMARTで「大丈夫」と言うときは、全体的な健康状態を意味するだけですか。再割り当てまたは保留中のセクターの個々の未加工カウンターはゼロ以外ですか？ドライブは、読み取り不可能であっても、最初の不良セクターで自身が故障したとすぐには宣言しません。使用smartctl -x /dev/sdaか何か。ただし、すべてのディスクで同じ LBAであることが非常に疑わしいです。

— Peter Cordes

あなたのddテストは、4枚のディスクがすべてで失敗を示し、同じLBAのアドレス。4つのディスクがすべてまったく同じ場所で故障することはほとんどあり得ないので、コントローラーまたはケーブル接続の問題が原因であると強く思います。

— shodanshok
ソース

それ以上のテストなしでは見分けるのは難しいです。とにかく、私が最初に制御/交換すると思うのは、コントローラーをバックプレーンに接続するケーブルです。

— shodanshok

6/12 Gbs SATA / SASケーブルのような高速データレートケーブルは、電気的導通だけでなく、主に信号の鮮明さと低ノイズに関係しています。コネクタを物理的に取り除き、ケーブルを取り付け直します。エラーが解決しない場合は、それらを変更して、最後に別のコントローラーを試してください。

— shodanshok

同じLBAがケーブル配線の問題である可能性は低いと思われます。そのセクターのデータが、SATA / SASリンクを介したスクランブリング（オールゼロのセルフクロッキングの拡張実行を防ぐため）またはECCの最悪の場合のビットシーケンスである場合を除きます。そのリンクがどのエンコーディングを使用しているかはわかりません。コントローラーはもっともらしいです。複数のディスクのそれぞれにある同じLBAには、何らかの共通要因の説明が必要です。

— Peter Cordes

@ djsmiley2k 4つすべてddが同じにキャッシュされて終了し、失敗したRAMアドレスになるのは困難です。さらに、PERCのDRAMはECC保護されており、ECC RAMにも障害が発生しますが、比較的まれです。とはいえ、コントローラーが問題の原因となる可能性があるため、ケーブルを交換しても問題が解決しない場合は、OPがコントローラーの交換を試みる必要があります。

— shodanshok

よく私の友人、あなたは正しかった。ケーブル+コントローラーがスワップされ、600 GBがddゼロ化プロセスになりました。これまでのところエラーはありません。すべて正常に機能しているようです。あなたが共有したすべての知識をありがとう。私はあなたの専門知識とそれを共有する意欲にいつもこのコミュニティに感謝しています。:)

— Scu11y