ECC訂正可能なエラー警告をどれほど真剣に受けるべきですか?


8

Sun X2200-M2サーバーの山があります。これらのサーバーにはECCメモリがあります。

これらのサーバーの一部では、eLOMで「修正可能なECCエラーが検出されました」という警告が表示されます。例:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

...他よりも頻繁にある。

この特定のシステムのカーネルもEDACエラーをスローしていますが、eLOMがECCイベントを記録する頻度よりもはるかに頻繁です。

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

サーバーが修正不可能なECCを検出している場合、システムはリセットされるので、それは明らかに悪いことであり、識別されたスティックまたはペアを取り外し/交換すると問題が修正されます。

しかし、私はエラーが修正可能である場合、すぐに問題は発生しないと考えています-これを警告として扱い、修正不可能なエラーが発生し始めたらスティック/ペアをプルする準備をすることができますか?

回答:


10

エラーが発生する頻度によって異なります。さまざまな理由により、ECCは平均して年に1回程度、シングルビットエラーを修正する必要があります。それよりも大幅に速くなっている場合、またはマルチビットエラーの場合は、心配する必要があります(RAMをできるだけ早く交換します)。

また、ECCは完璧ではありません。累積エラーがECCを通過する可能性があります。OSのクラッシュや同様の問題として表示されます。


ありがとう。交換品の資金を調達するために顧客と交渉する。
David Mackintosh
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.