リンク例外のハードリセットEmask 0x50 SAct 0x0 SErr 0x4090800アクション0xeフリーズ


8

次の状況:

カーネルを備えた生産的なLinux Debian 7サーバー 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

メーカー:Supermicro 製品名:X10SLL-F バージョン:1.02

SATAコントローラ: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

SSD x 2、HDD x 2

各ドライブはSata Rev3(6.0Gb / s)を実行できます

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

カーネルメッセージは、(少なくとも私には)4つのドライブすべての問題を示唆しています。

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

私がすでに理解したこと(または理解したと信じていること)

コマンドSECURITY FREEZE LOCKDEVICE CONFIGURATION OVERLAYは問題にとって重要ではありません。

20のバグレポートと多くのドキュメントを読みながら、いくつかのリンクされたものは、NCQを無効にすることを提案しました。

最初に1つのデバイスで、エラーが繰り返されるかどうかを確認するために1日待った後、それが再度発生し、4つのデバイスすべてでそれを無効にしました

echo "1" >/sys/block/sdc/device/queue_depth

状況に明らかな変化はありません。

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

また、SATAケーブルや、ボードとドライブ間の非互換性を示唆する人もいます。

ただし、1つのドライブに問題があり、これが4つすべてに発生するようであるか、4つすべてのデバイスに直接問題があるため、問題をさらに特定することはできません。

これはプロダクションサーバーであるため、メンテナンスのためにこのサーバーを停止(別名bios / kernel param changes)することは可能ですが、可能であればそれを防ぎたいと思います。

ホスターによると、これは電源管理に関連している可能性があります:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

変更前は、に設定されていましたmax_performance

これも役に立たなかった。

HDD / SDDのスマートな値はOKです。

UDMA値は33になりました。

サーバーの起動時に、これはsataリンク速度値でした:

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

状況はHDDの高負荷でのみ発生する可能性があります。サーバーのパフォーマンスに明らかに影響するため、まだテストしていません。

SSDには負荷がかかりません。SSDはマウントされていますが、どのプロセスでも使用されていません。

RAMは、私が知る限り、ECCです。

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

次に何をすればいいのかわからないので、追加情報がありましたらお知らせください。


ベンダーのsupermicroに直接尋ねます。可能であれば、ホスティング業者がそうしない場合でも支援できます。
Dennis Nolte 2016年

1
システムが1.5 Gbpsで再ネゴシエートしていることに注意してください。1.5 Gbpsを強制してみて、システムが安定するかどうかを確認します。これはデータポイントです。方法の簡単な説明については、askubuntu.com / a / 146290/11751を試してください。
CVn '18年

回答:


4

サーバーで発生するのは、基本的に、ドライブとの通信に問題が発生した後の、低速リンク速度でのSATA再ネゴシエーションです。

これらの要因は、ここで機能している可能性があります(確率で並べ替え)

  1. 非常に高いレイテンシのIOPS操作(例:SSDコントローラのガベージコレクションが原因)により、SATAコマンドがタイムアウトします。ドライブはSATA Trimコマンドをサポートしていますか?その場合は、実行してみてくださいfstrim /。何か変化はありますか?
  2. マザーボード/メモリの不良:メモリECCは保護されていますか?そうでない場合、可能であれば、延長(2時間以上)memtest86 +テストセッションを実行します。
  3. ハードウェア/ソフトウェアドライバーの非互換性
  4. 悪いSATAコントローラー:ほとんどありませんが、完全に除外することはできません
  5. 不良なSATAケーブル/ドライブ:4つのドライブすべてが問題を引き起こすため、これはほとんどありません

ssdは現在使用されていません。ECCが使用されているようです。dmidecode -t17から:合計幅:72ビットデータ幅:64ビット
Dennis Nolte

3

Supermicroサポートによると、欠陥はボードにあります:

見積もり:

This board may need ECO 16238 update.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.