APEIの一般的なハードウェアエラー


9

先週、私のサーバー(Debian Jessieを実行している)が2回再起動しました。Syslogで、再起動する前にこれを確認しましたが、他の時点では確認できません。

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

一部のグーグルによって、これは私のECC RAMがエラーを検出して回復することに関係していると私に思わせます。これは正しいです?回復しているのに、なぜシステムが再起動するのですか?できればシステムが再起動しないようにしたいのですが。

回答:


9

RAMが故障しているか、エラーが修正されているようです。重大度によっては、これらのエラーが機能に影響を与えていると思われ、その後再起動する必要があります。

このスレッドの外観から、エラーセクションの長さが小さすぎることに関する最後のメッセージビットが原因である可能性があります。

抜粋- [パッチ1/1] efi:cper:さまざまな長さのエラーセクションをサポート

一部のフィールドは、新しいUEFI仕様のエラーセクションに追加される場合があります。たとえば、フィールド '予約済み'、 'ランク番号'、 'カードハンドル'、および 'モジュールハンドル'は、UEFI仕様2.3以降のメモリエラーセクションに追加されます。残念ながら、メモリ修正エラーが検出され、acpi_generic_data構造体のフィールド 'revision'が0x203(UEFI仕様2.3)未満の場合、次の警告メッセージが表示されます。

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

この動作により、この修正されたエラーは正しく表示できません。この問題を解決するために、このパッチでは、UEFI仕様バージョンごとに異なる長さのエラーセクションがサポートされています。

また、このパッチは、事前定義された構造を使用して、関数cper_estatus_print_sectionの重複コードをクリーンアップします。

このパッチを適用すると、メモリ修正エラーはエラーの挿入後に正しく表示される可能性があります。

GrantleyプラットフォームとIntel RAStoolを使用してv3.14-rc5でテストされています。

そのため、その特定のエラーに対するパッチが機能しているように見え、カーネルの新しいバージョンで利用できる可能性があります。


3

参考までに、これと非常によく似た問題があるように見えました。

結局のところ、解決策はメモリを取り出して再度装着することであり、すべてが正常に戻りました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.