不明な理由でハードディスクがオフラインになる


11

以下のセットアップを実行している7つのシステムがあります。たまに別のディスクがオフラインになりますが、詳しく調べてみると、ディスクは正常で故障しておらず、少なくとも1年間は問題なく動作します。これは7つのシステムすべてで発生するため、動作している単一の部品(ケーブルなど)が存在する可能性は低いと思いますが、代わりに一部の部品の組み合わせがわずかに非互換です。

問題は、非互換性がある正確なポイントを見つけることです。

(代わりに、コマンドラインからハードディスクを仮想的に再装着できる回避策がある場合は、https://serverfault.com/questions/523315/re-activate-deviceに回答できる場合があります-that-is-is-considered-dead)。

サーバーハードウェア:Dell 1950、Dell R815、Dell R715。

オペレーティング・システム:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

コントローラ:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

SAS / SATA-expander Supermicro 4U SAS / SATA Expander Backplane with single LSI SAS2X36 Expander Chip:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

ディスク:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

1つのシステム内のディスク:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)

9
重要な質問をし始めるための+1 :)
スヴェン

シールドのない不良ケーブルは、チェックサムの問題を引き起こす可能性があります。[したがって、読み取りおよび書き込みの問題が発生します]。ケーブルを交換しようとしましたか?
僧ks

ケーブルは既知の商品に交換されています。また、scsiバスをリセットした後、Linuxがコマンドを再試行することを期待します。
オレ丹下

2
私がこれまで掘り下げてきたことから、メッセージは接続の問題があることを示しています-SMARTアラートではありません。私が知っているのは、SASと比較してコマンド/キューが不足しているため、大規模なセットアップではS-ATAディスクから離れているということです。これをいくつか見てみましょう。
pauska

@pauskaあなたが掘り出したものに(リンクで)詳しく説明できますか?
オレ丹下

回答:


1

ここには情報がありません。このストレージ設定では、サーバーごとに24〜45個のディスクを使用することを提案しています。

  • どの特定のコントローラーを使用していますか?
  • ディスクの数が原因で、外部エンクロージャーにいくつかのドライブがある場合があります。使用中の外部ドライブエンクロージャのメーカー/モデルを提供してください。
  • どの特定のドライブモデルを使用していますか?あるすべてのディスクのデスクトップ級のドライブのは?
  • どのファイルシステムを使用していますか?
  • ディスクとRAIDのレイアウトを説明します。
  • これは常に問題でしたか、それとも時間の経過とともに発展しましたか?
  • あるスーパーマイクロは、このセットアップではどこでも関与?

エンクロージャーのセットアップによっては、SATAタイムアウトまたはバスエラーが発生する場合があります。これ、コントローラーに接続されているすべてのドライブに悪影響を及ぼす可能性があります。

別の問題として、SAS / SATAリンクネゴシエーションが不十分である可能性があります。同じボード上で1.5Gbpsと6.0Gbpsのドライブが混在している場合、私は確かにいくつかのSASエクスパンダーでこれを経験しました。

より多くの情報を提供してください。


Supermicroについての質問に非常に興味があります。詳しく説明してもらえますか?
ハーフガー

@Halfgaar私が尋ねた他の質問についてのフィードバックをお願いできますか?
ewwhite

元の投稿は私の投稿ではありません。私はその声明に興味があります。
ハーフガー

1
@Halfgaar Ooops ...さて、Supermicro SAS拡張/バックプレーンといくつかのJBODエンクロージャーは、多くの状況で予測どおりに動作しないことがわかりました。SAS / SATAの速度のダウンシフトとリンクネゴシエーションに関する私の回答のメモは、Supermicroギアの特定のリビジョンでしか経験したことのないものです。また、動作が不安定なため、ZFSでJBODを使用できなくなりました。
ewwhite
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.