RAMの誤動作に関する統計


8

コンピューターのRAMが誤動作する頻度に関する統計や調査について誰か知っていますか?

更新:私のコンピューターは大丈夫です!RAMの問題はありません。統計に興味があります。ソフトウェアのバグレポートが表示されますが、その原因の1つはユーザーのコンピューターのRAMの誤動作である可能性があり、その可能性を知りたいのですが。

ありがとう!

カール


ラムの故障のせいになっている問題について具体的に教えてください。
デイブチェイニー、

少し。チェックサムは、ファイルから、およびハードドライブのRAMにロードされたファイルの一部から計算されます。一部のユーザーのシステムで、非常に奇妙な結果に気づきました。これは、バグまたはメモリの誤動作によって説明される可能性があります。
カールセレボー

回答:


6

サーバークラス36マシンの集団では、3か月に1回、ECC回路によって修正可能な障害が検出されました。

メモリ障害が疑われる場合は、を実行する必要がありますmemtest86。これは、最近人気のあるほぼすべてのLinuxディストリビューションに含まれています。


それをどのように監視しますか?
Antoine Benkemoun、2009年

ほとんどのLOMシステムはログでそれを追跡します。
Chris S

3

Robin HarrisのDRAMエラー率より:DIMMストリートの悪夢

数万台のGoogleサーバーでのDRAMの2年半の調査によると、DIMMエラー率は予想よりも数百倍から数千倍高く、平均DIMMあたり年間3,751の訂正可能なエラーです。

Harrisは、Googleのサーバー群で2 . 5年以上行われ調査を引用しています。サーバーは通常、EEC RAMを使用することに注意してください。これは、いくつかのエラー修正を実行します。消費者レベルのコンピューターには通常、これはありません。

Lambda DiodeのBerke Durakは以下を計算します

最初に、エラー訂正もパリティもないシステムがあるとします。時間T中にビットエラーが発生する確率は、1-(1-p)^ mです。

T = 1時間の場合、p = 1.3e-12およびm = 4 * 2 ^ 30 * 8で、0.044または4.4%になります。それはかなり高い確率です。実際、1日で66%の確率になり、72時間で96%の確率になります。

したがって、72時間で地球の海面で4ギガバイトのメモリに少なくとも1つのビットエラーが発生する確率は95%を超えます。

クラッシュの原因を特定できなかったときに、同僚が次に「宇宙線」と言ったとき、私は笑わないでしょう...


2
「エラーのあるマシンの20%が、観測されたすべてのエラーの90%以上を占めています」、「この調査では、エラー率はマザーボードに依存していることがわかりました」。とりあえず常識に固執すると思います。研究は「嘘、いまいましい嘘、統計」のにおいがします。(ちょうど私の2セント)
Chris S

2

memtest86 +でコンピューターを起動して、夜間にチェックを実行できます。それが私が問題を見つける方法です。

はい、メモリスティックが不良になり、特定のパターンのメモリ書き込みでのみ失敗するのを見てきました。コンピューターのBIOSは問題を検出しませんでしたが、memtest86は一晩の実行でそれを見つけました。

過去10年間に使用した約50台のコンピューターで、2スティックのRAMが不良になるのを見ました。それは起こりますが、頻繁ではありません。


memtest86 +への別の投票。それはあなたの記憶を少しずつ歩いてエラーを探します。
Dave Drager、

みんなありがとう、しかし私は本当に統計が必要です:問題は私のコンピューターではなくユーザーのコンピューターで起こります(そして私たちは200000+ユーザーを持っています)。
カールセレボー

2

あなたはこのグーグル調査を見てみたいかもしれません:

平均して、毎年、Googleサーバーの約3分の1で修正可能なメモリエラーが発生し、100分の1で修正不可能なエラーが発生しています

しかし、彼らはあなたの日常のユーザーRAMではなくECC RAMについて話します


2

過去10年間で運用サーバーで少数のメモリモジュールが完全に故障し、新しく提供されたハードウェアでMemtest86バーンインテストを実行すると、わずかに多くの故障が発生しました。これらはサーバーシステムであり、ほとんどすべてが何らかの種類のECCメモリを備えているため、エラーを修正しないRAMを備えたクライアントシステムでは、より頻繁に問題が発生すると予想されます。しかし、私には膨大なサンプルセットがありません。数十台のサーバーがあり、顧客のシステムのコミッショニングに関しては、私が100程度のレベルで取り組んできたと思います。 d実際にはRAMに注意を払っています。

クライアント側では、エンタープライズスケールでの経験が少しあります。私は、2年間5万人のエンドユーザーのPCを管理するグループの上級エンジニアでしたが、RAMのハードまたはソフトの障害を重大な問題と見なしたことはありませんでした。システムの測定可能な割合に影響を与える何か。それが起こらなかったと言っているのではなく、ビジネスクラスのデスクトップとノートブックの1%以上が影響を受けた問題だったとしても、私は非常に驚いています。一部の特定のモデルでは、ビルド品質管理に関連する非常に高い障害率が示されます。IBMThinkpad T30の最初のバッチには、2番目のDIMMスロットに関する問題があり、一度に数千台のマシンを修理/交換する必要がありました。

2005年のMicrosoftのLarry Ostermanからこのブログ投稿は、これらのいくつかについて考えられる説明を与えるかもしれません-Windowsエラー報告からのかなり大きなデータセットで報告されたいくつかの奇妙なエラーの彼の分析は、これらの奇妙な問題の多くは、クロッキング。かなりの数のエンドユーザーがオーバークロックされたコンシューマーレベルキットを使用している可能性がある場合、これはエラーに関連している可能性があります。


0

システムで「ミラーリングされたメモリ」を使用するオプションはありますか?これにより、メモリの問題があるかどうかがわかります。これを行うと、物理メモリの問題が原因でエラーが発生する可能性がかなり低くなります。


Chopper3に感謝しますが、繰り返しになりますが、問題は統計に関するものでした。私のコンピュータは問題なく、ミラーメモリを使用するように200000以上のユーザーに要求することはできません:-)
Carl Seleborg

良い点、よくできている-しかし、範囲を認識していなかった。
Chopper3

-1

Linuxを実行している場合:

memtest86 +で再起動したくない場合は、memtesterを実行してメモリをテストし、メモリに欠陥があるかどうかを確認することで、いくつかの結果を得ることができます。これは、不規則なフォルトを検出するためだけでなく、その中に非決定的なフォルトを見つけるためにも、現実的に良い仕事をします。メモリの境界線を捕捉するためのいくつかのテストがあり、見つかった障害、テストの実行、およびコンピュータで障害を見つけるためにかかった時間の詳細なレポートを生成します。再起動する必要はなく、実行中のLinuxシステムで実行できます。

アプリへのリンクは見つかりませんでしたが、debianパッケージ情報は次のとおりです。


申し訳ありませんが、私の質問は自分のシステムに関するものではありませんでした。もっと注意深く読んでください。
Carl Seleborg、2010
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.