ECCメモリの重要性


11

重要ではないサーバーにECCメモリモジュールを搭載することは重要ですか?

私は自分自身に、ランダムで重要ではないものがたくさんあるおもちゃ専用のサーバーを用意することを考えていました。散発的な再起動は大した問題ではありません。私は1つのプロバイダーを見ていますが、価格はめちゃくちゃ安いです。ハードウェアは、デスクトッププロセッサ、非ECC RAM、無名のシャーシ、ホットスワップSATA HDDなしなど、深刻なサーバーボックスの冗談のように聞こえます(価格がそれを正当化すると思います)。

私は「深刻な」サーバーでECCメモリを当たり前だと思っているので、それが「おもちゃ」のアプライアンスにとって大したことなのかどうか疑問に思っています。


3
あなたは、ECCメモリに疑問を呈しているが、SATAドライブを使用しても満足そうだ。非常に奇妙な。
ジョンガーデニアーズ

3
@JohnGardeniersおわかりのように、たとえ年に1度HDDが故障したとしても、数時間のダウンタイムとRAID回復は気にしません。しかし、毎日/毎週のトラブルは面倒です。はい、実際、この場合の稼働時間よりも余暇の方が心配です
...-PJK

6
@JohnGardeniers:SATAドライブはSCSI / SAS HDDよりも信頼性が高くありません:usenix.org/event/fast07/tech/schroeder/schroeder.pdf
ヒューバートカリオ

回答:



10

ECC RAMは基本的に、RAMの読み取りおよび書き込み時に発生するエラーを防ぐのに役立ちます。実際にエラーが発生する可能性は非常に小さいですが、ゼロではありません。ミッションクリティカルな作業をしていない場合は、ECC RAMを使用せずに逃げることができます。前述したように、ECCで防止できるエラーが発生する可能性は非常に小さいと言えます。


6

重要ではないサーバーとは何ですか?失敗する可能性のあるものは?

メモリの信頼性が重要場合、ECC RAMは重要です。

メモリサイズの増加に伴い、次の2つのことが成長します。

  • メモリ上のソフトウェアの依存、特に。サーバーソフトウェア(キャッシングなど)
  • メモリエラーの確率(p = num_bits * p_bit_failure)

ECCに関するこのインテルのプレゼンテーションでは、次の事実を報告しています。

  • 24時間365日稼働する4GBのメモリを搭載したサーバーの平均メモリエラー率は、1年に150回です。
  • メモリモジュールごとに年間最大4000個の修正可能なエラー
  • オーバークロックとシステムエージングにより、故障率が大幅に向上
  • 再発障害は一般的であり、すぐに発生します(最初の障害から10日以内に97%発生)=>アバランシェ効果
  • 寿命が3〜5年のECCサーバーの場合、システム障害の修正不可能なメモリエラーの可能性は0.001%未満です。

WISCによる別の最近の研究は、ECCがこれらのZFSシステムに不可欠であることを示しています。

ZFSには、メモリ破損に対する予防措置がありません。不良データブロックがユーザーに返されるか、ディスクに書き込まれ、ファイルシステム操作が失敗し、システム全体が何度もクラッシュします。

他のファイルシステムは、ZFSと同様にこの形式のデータ破損の影響を受けやすいことに注意することが重要です。

ECCは、可能であればこれらの問題に遭遇するのを防ぎ、悲惨な場合には手遅れになる前にこれが起こることを警告するものです。


1

それは単にそれほど重要ではありません。99.999%のアップタイムが必要な場合は、心配する必要があります。それ以外は、メモリエラーが発生するよりも頻繁に再起動します。


1

2009年のGoogleによるこの調査では、メガビットあたり10億デバイス時間あたり25000〜70000のエラー率が見つかりました。つまり、8GiBの(使用済み)RAMの場合、1時間あたり約1.7〜4.8のエラーが発生しました。

ビットフリップは存在するものであり、データの整合性が重要になったらすぐに無視すべきではありません。

あなたの場合(ランダムで、重要ではないもの)、それはおそらくやり過ぎでしょう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.