どのメモリにCEエラーがあるかを見つけるにはどうすればよいですか?


12

/var/log/kern.log

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

これはedacログであり、メモリの1つにceエラーがあります。

edac docを読みました

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

エラーチャネルを見つけます。

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

そして、それはmc0/csrow0/ch2docのように、DIMMはである必要がありDIMM_C0、以下によって見つけることができます dmidecode

しかし、このDIMMが見つからないため、どのメモリに問題があるのか​​わかりません。

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

12個のスロットがあり、9個のスロットにメモリがあります。

それで、どのメモリに問題があるのか​​をどうやって知ることができますか?


補足:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

これはどのタイプのサーバーですか?サーバーの製造元とモデル。
ewwhite 14

@ewwhite、こんにちは、システム情報で質問を更新しました。
タンキーウー14

どのオペレーティングシステムを実行していますか?
ewwhite 14

@ewwhite OSはUbuntu 12.04、カーネルがある3.10.20
Tankyウー

ああ、すみません... このハードウェアはUbuntuは実際にはサポートされていないので、RHEL / CentOS / Debian / SuSEを使用しないことで適切に監視することができなくなります...
ewwhite 14

回答:


8

問題のあるDIMMはおそらく- Locator: PROC 1 DIMM 5F

CPU#0Channel#2_DIMM#0の意味:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

編集:

質問するときは、より多くの情報が常に優れています...サーバーの製造元とモデルがあれば、これは簡単になります。

HP ProLiant DL180 G6 Quickspecsのメモリダイアグラムは次のとおりです。

ここに画像の説明を入力してください

CPUスロット#1のDIMMが正しいという私の提案...しかし、これはHPハードウェアです。推測する必要はありません!!

HPの管理エージェントを使用する必要があります。それらは、ハードウェアの健全性とステータスに関するプラットフォーム固有の詳細を警告して提供できるためです。

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

おかげで、関連するドキュメントはありますか?
タンキーウー14

@TankyWooはい、上記を参照してください。
ewwhite 14

PROC1 DIMM 5Fメモリがないため、スロットが実際に確認されていないということですか?hpamscli正しいDIMMを取得するには、hp debミラーを追加してインストールする必要がありますか?
タンキーウー14

install hp-healthがあり、これStatusN/A貼り付けた出力と同じです。
タンキーウー14

実行hplog -vして、HP IMLログのエントリを確認します。
ewwhite 14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.