MCEメッセージを解釈するにはどうすればよいですか?


10

最近/var/log/messages、私たちのサーバーの1つ(以下)で発生した多くのエラーに気づきました。ただし、mceクライアントは、syslog内のデコードされたエントリよりもエラーの原因を特定できていないようです。MCE出力を解釈するために使用するある種のキーはありますか?

Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

すべてのエラーは同じメモリバンクに関連しているようです:

areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8 

mcelogデーモンを実行していて、エラー情報を確認しても、エラーの原因がわからないようです。関連付けられているCPU0ことのみ(このボックスにはCPUが1つしかありません):

Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

私がこの情報をどのように解釈すべきかは、まったく明確ではありません。一方では、mceクライアントはチャネルまたはDIMMを示しませんが、デコードされたメッセージはDIMM 8でエラーが発生しdmesgたことを示します。42のメッセージのみがログに記録されたことを示しているようです:

[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

さまざまなソースから報告された情報に基づいて、どのような仮定を立てればよいのか迷ってしまいます。

その他の情報:

areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze

回答:


2

問題のDIMM(CPU 0、SOCKET 8)を交換して、MCEメッセージが引き続き生成されるかどうかを確認してみてください。

mcelogパッケージには、時間の経過とともに発生するさまざまなMCEイベントに対するデフォルトのしきい値がいくつか設定されています。/etc/mcelog/mcelog.conf詳細はチェックアウトしてください。メモリページエラーのしきい値は、24時間で10イベントです。(私はこの数字がどこから来たのか本当にわかりませんが、それはおそらく妥当な参照ポイントです)。あなたの投稿では、24時間でページ全体に対して77の修正可能なイベントについて言及しているため、DIMMがより深刻な問題につながる可能性のある問題を引き起こした可能性があります。

さまざまなソースから一貫性のない情報を受け取ることに腹を立てることはありません。一般に、ファームウェアレベルのすべてのものがかなりプラットフォーム固有(つまり、その特定のハードウェアモデルに固有)であることがわかりました。ファームウェア関連の問題についての私の経験則では、ベンダーツールは通常最も正確ですが、使用可能性が最も低いということです。より一般的なオープンソースツールは操作が簡単ですが、何が起こっているかを正確に示すのに十分な情報を提供しない場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.