重要ではないサーバーとは何ですか?失敗する可能性のあるものは?
メモリの信頼性が重要な場合、ECC RAMは重要です。
メモリサイズの増加に伴い、次の2つのことが成長します。
- メモリ上のソフトウェアの依存、特に。サーバーソフトウェア(キャッシングなど)
- メモリエラーの確率(p = num_bits * p_bit_failure)
ECCに関するこのインテルのプレゼンテーションでは、次の事実を報告しています。
- 24時間365日稼働する4GBのメモリを搭載したサーバーの平均メモリエラー率は、1年に150回です。
- メモリモジュールごとに年間最大4000個の修正可能なエラー
- オーバークロックとシステムエージングにより、故障率が大幅に向上
- 再発障害は一般的であり、すぐに発生します(最初の障害から10日以内に97%発生)=>アバランシェ効果
- 寿命が3〜5年のECCサーバーの場合、システム障害の修正不可能なメモリエラーの可能性は0.001%未満です。
WISCによる別の最近の研究は、ECCがこれらのZFSシステムに不可欠であることを示しています。
ZFSには、メモリ破損に対する予防措置がありません。不良データブロックがユーザーに返されるか、ディスクに書き込まれ、ファイルシステム操作が失敗し、システム全体が何度もクラッシュします。
他のファイルシステムは、ZFSと同様にこの形式のデータ破損の影響を受けやすいことに注意することが重要です。
ECCは、可能であればこれらの問題に遭遇するのを防ぎ、悲惨な場合には手遅れになる前にこれが起こることを警告するものです。