「ノースブリッジエラー（ノード0）：プローブフィルターディレクトリのECCエラー」

ユーザーの1人のサーバーでの以下のエラーは深刻な問題を示していると心配するメールを受け取りました。トラブルは、以下のエラーがあるされ、すべて私が行かなければならないということ。私は通常、きちんとしたGoogle社員だと思っていますが、この場合、ユーザーが「プローブフィルターディレクトリ」に関するこのエラーに遭遇したインシデントは1つしか見つかりません。

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

私が知ることができることから、これは一度だけ起こりました。他のハードウェアエラーのログを回避すると、この1つのインシデントしか現れません。

上記で参照したフォーラムの投稿の最後は、基本的に、ユーザーに1回だけ発生し、致命的な問題が発生しなかった場合は、心配しないように通知することです。これは、変数が多すぎる（つまり、9月8日の午前2時50分に何が実行されていたのか）とも述べた同僚から得たのと同じアドバイスです。

ただし、このユーザーは、システムに問題がないことを安心させたいと考えています。上記のエラーは何を示しているか、または関連していますか？「プローブフィルターディレクトリ」とは何ですか？これによりユーザーのマシンに致命的な運命のフラグが立てられないことを安心させるために、どのようなテストを実行できますか？

マシンのLinuxディストリビューションは、Red Hat Enterprise Linux Serverリリース6.4（サンティアゴ）です。

linux-kernel hardware ecc

— CptSupermrkt
ソース

これはそれが何であるかを説明しています：developer.amd.com/community/blog/ht-assist-what-is-it

— derobert

おっと、あなたは正しいです！ページをctrl + fで押したところ、「HTアシスト、または呼び出されることがあるプローブフィルター」が見つかりました。最後に、エラー/開始点への何らかの参照！私はやることがたくさんあります:)

— CptSupermrkt 2013

答えのように聞こえる@derobert、いいえ？

— Braiam 2014

@Braiamのリンクは、「プローブフィルター」とは何かを説明しているだけです... OPがそこにECCエラーが発生する理由や、実際の問題を示しているかどうかは説明していません。

— derobert

正確な答えはありませんが、一部はよく知っています。プローブフィルターディレクトリが何であるかはわかりませんが、CptSupermrktが上記で説明しています。

PCIでは、ノースブリッジがメモリとプロセッサに接続します。ECCエラーはDRAMに関連しています。エラー訂正コードビットが各ワードと共に格納されています。読み取り時には、更新時に書き込みがチェックされます。ECCエラーは訂正可能または訂正不可能であり、書き込まれたビットを使用してエラーを訂正する機能を示します。Uncorrectableは、永続的なハードウェアエラーがあることを示しません。これらは、DRAMが故障し始めたときに発生します。

これらすべてを考慮すると、これは一時的なエラーのように見えます。完全なメモリテストを試すこともできますが、何も見つからない可能性があります。DRAMが故障した場合の唯一の修正措置は、DRAMを交換することです。

— MikeLRoy
ソース