コンピューターのRAMが誤動作する頻度に関する統計や調査について誰か知っていますか?
更新:私のコンピューターは大丈夫です!RAMの問題はありません。統計に興味があります。ソフトウェアのバグレポートが表示されますが、その原因の1つはユーザーのコンピューターのRAMの誤動作である可能性があり、その可能性を知りたいのですが。
ありがとう!
カール
コンピューターのRAMが誤動作する頻度に関する統計や調査について誰か知っていますか?
更新:私のコンピューターは大丈夫です!RAMの問題はありません。統計に興味があります。ソフトウェアのバグレポートが表示されますが、その原因の1つはユーザーのコンピューターのRAMの誤動作である可能性があり、その可能性を知りたいのですが。
ありがとう!
カール
回答:
サーバークラス36マシンの集団では、3か月に1回、ECC回路によって修正可能な障害が検出されました。
メモリ障害が疑われる場合は、を実行する必要がありますmemtest86
。これは、最近人気のあるほぼすべてのLinuxディストリビューションに含まれています。
Robin HarrisのDRAMエラー率より:DIMMストリートの悪夢:
数万台のGoogleサーバーでのDRAMの2年半の調査によると、DIMMエラー率は予想よりも数百倍から数千倍高く、平均DIMMあたり年間3,751の訂正可能なエラーです。
Harrisは、Googleのサーバー群で2 . 5年以上行われた調査を引用しています。サーバーは通常、EEC RAMを使用することに注意してください。これは、いくつかのエラー修正を実行します。消費者レベルのコンピューターには通常、これはありません。
Lambda DiodeのBerke Durakは以下を計算します:
最初に、エラー訂正もパリティもないシステムがあるとします。時間T中にビットエラーが発生する確率は、1-(1-p)^ mです。
T = 1時間の場合、p = 1.3e-12およびm = 4 * 2 ^ 30 * 8で、0.044または4.4%になります。それはかなり高い確率です。実際、1日で66%の確率になり、72時間で96%の確率になります。
したがって、72時間で地球の海面で4ギガバイトのメモリに少なくとも1つのビットエラーが発生する確率は95%を超えます。
クラッシュの原因を特定できなかったときに、同僚が次に「宇宙線」と言ったとき、私は笑わないでしょう...
memtest86 +でコンピューターを起動して、夜間にチェックを実行できます。それが私が問題を見つける方法です。
はい、メモリスティックが不良になり、特定のパターンのメモリ書き込みでのみ失敗するのを見てきました。コンピューターのBIOSは問題を検出しませんでしたが、memtest86は一晩の実行でそれを見つけました。
過去10年間に使用した約50台のコンピューターで、2スティックのRAMが不良になるのを見ました。それは起こりますが、頻繁ではありません。
あなたはこのグーグル調査を見てみたいかもしれません:
平均して、毎年、Googleサーバーの約3分の1で修正可能なメモリエラーが発生し、100分の1で修正不可能なエラーが発生しています
しかし、彼らはあなたの日常のユーザーRAMではなくECC RAMについて話します
過去10年間で運用サーバーで少数のメモリモジュールが完全に故障し、新しく提供されたハードウェアでMemtest86バーンインテストを実行すると、わずかに多くの故障が発生しました。これらはサーバーシステムであり、ほとんどすべてが何らかの種類のECCメモリを備えているため、エラーを修正しないRAMを備えたクライアントシステムでは、より頻繁に問題が発生すると予想されます。しかし、私には膨大なサンプルセットがありません。数十台のサーバーがあり、顧客のシステムのコミッショニングに関しては、私が100程度のレベルで取り組んできたと思います。 d実際にはRAMに注意を払っています。
クライアント側では、エンタープライズスケールでの経験が少しあります。私は、2年間5万人のエンドユーザーのPCを管理するグループの上級エンジニアでしたが、RAMのハードまたはソフトの障害を重大な問題と見なしたことはありませんでした。システムの測定可能な割合に影響を与える何か。それが起こらなかったと言っているのではなく、ビジネスクラスのデスクトップとノートブックの1%以上が影響を受けた問題だったとしても、私は非常に驚いています。一部の特定のモデルでは、ビルド品質管理に関連する非常に高い障害率が示されます。IBMThinkpad T30の最初のバッチには、2番目のDIMMスロットに関する問題があり、一度に数千台のマシンを修理/交換する必要がありました。
2005年のMicrosoftのLarry Ostermanからのこのブログ投稿は、これらのいくつかについて考えられる説明を与えるかもしれません-Windowsエラー報告からのかなり大きなデータセットで報告されたいくつかの奇妙なエラーの彼の分析は、これらの奇妙な問題の多くは、クロッキング。かなりの数のエンドユーザーがオーバークロックされたコンシューマーレベルキットを使用している可能性がある場合、これはエラーに関連している可能性があります。
システムで「ミラーリングされたメモリ」を使用するオプションはありますか?これにより、メモリの問題があるかどうかがわかります。これを行うと、物理メモリの問題が原因でエラーが発生する可能性がかなり低くなります。
Linuxを実行している場合:
memtest86 +で再起動したくない場合は、memtesterを実行してメモリをテストし、メモリに欠陥があるかどうかを確認することで、いくつかの結果を得ることができます。これは、不規則なフォルトを検出するためだけでなく、その中に非決定的なフォルトを見つけるためにも、現実的に良い仕事をします。メモリの境界線を捕捉するためのいくつかのテストがあり、見つかった障害、テストの実行、およびコンピュータで障害を見つけるためにかかった時間の詳細なレポートを生成します。再起動する必要はなく、実行中のLinuxシステムで実行できます。
アプリへのリンクは見つかりませんでしたが、debianパッケージ情報は次のとおりです。