これはサーバーのハードウェアに依存します。ホワイトボックスまたはSupermicroシステムは、Dell、HPまたはIBMとは異なる方法でこれを処理します...
ハイエンドサーバーの付加価値機能の1つは、一定レベルのハードウェア/ OS統合があることです。より優れたサーバーは、管理エージェントや帯域外管理ソリューション(ILO、DRAC、IPMI)の一部として、探しているものを報告します。
ハードウェアプラットフォームに固有のツールを使用する必要があります。
LinuxおよびHP管理エージェントを実行しているHP ProLiantサーバーからの抜粋:
Trap-ID=6056
ECC Memory Correctable Errors detected.
そして
Trap-ID=6052
Advanced ECC Memory Engaged
またはより厳しい
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
または最悪... RAMが不良であるためにサーバーがクラッシュするまで6日間エラーを無視する
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
これらはログに記録され、さらにSNMPトラップと電子メールが送信されました。
一般的に、カーネルリングバッファーにマシンチェック例外が表示されるため、mcelogを確認dmesg
または実行できます。IPMIを使用しないSupermicroギアでの経験では、それはすべてを捕らえず、RAMエラーがクラックをすり抜けて停止を引き起こしていました。残念ながら、これにより、システムを展開する前に、古いRAMバーンインポリシーが作成されていました。