RAMテストが一貫していない-最も可能性の高い犯人は何ですか?(つまり、交換に何を費やすべきか)


20
  • マザーボード:GA-B85M-DS3H-A
  • CPU:Core i5 4430
  • RAM:PNY XLR8 DDR3 32GB(4x8GB)1600MHz(MD32768K4D3-1600-X9)
  • PSU:EVGA 500 W1 80+

問題

すべての32GBのRAMがインストールされていると、システムはMemTest86 + 6.2に一貫して失敗します。障害は常に最初のパスで発生し、エラーは数百万のエラーに急速に上昇します。Windowsを実行しようとすると、ランダムな再起動とStopエラーが発生します(RAMエラーで予想されるとおり)。

私が試したこと

  • ソケットDIMM1で単一の8GB PNYモジュールをテストします。MemTestの4つのパスを正常に完了します。
  • ソケットDIMM2で単一の8GB PNYモジュールをテストします。MemTestの4つのパスを正常に完了します。
  • ソケットDIMM3で単一の8GB PNYモジュールをテストします。MemTestの4つのパスを正常に完了します。
  • ソケットDIMM4で単一の8GB PNYモジュールをテストします。MemTestの4つのパスを正常に完了します。
  • ソケットDIMM1で、4つの8GB PNY DIMMすべてを個別に個別にテストします。すべてのモジュールは、MemTestの4パスを正常に完了します。
  • ソケットDIMM1およびDIMM2で2つの8GB PNYモジュールをテストします。MemTestの4つのパスを正常に完了します。
  • ソケットDIMM3およびDIMM4で2つの8GB PNYモジュールをテストします。MemTestの4つのパスを正常に完了します。
  • 4個の2GBの正常なDIMMをすべてのソケットに取り付けて、マザーボードをテストします。MemTestの4つのパスを正常に完了します。
  • ソケット内のPNY DIMMの順序を入れ替えます。変更なし-MemTestエラーは引き続き発生します。
  • マザーボードのRAM電圧を1.5vから1.65Vに上げます。変更なし-MemTestエラーは引き続き発生します。
  • セットアップユーティリティでRAMの手動設定をさまざまに組み合わせて再生します-XMPプロファイルの有効化/無効化、「安定性の向上」プリセットの設定など。変更なし、MemTestエラーは引き続き発生します。

不良なRAMと不良なRAMソケットを安全に除外できると思います。唯一の 4つのすべての8GBモジュールが同時にインストールされている場合MEMTESTテストが失敗した時間です。

PSUから出る電圧を測定しましたが、4本のスティックをすべて取り付けても安定しているように見えます。

これを書いているとき、BIOSでRAM速度を手動で1066MHzに下げるという最後の手段を試しました。これまでのところ、MemTestは1回のパスを完了し、2回目のパスでエラーは発生していません。(上記のすべてのテストは、ネイティブの1600MHz RAM速度で実行されました。)これにより、少し遅いRAM速度でシステムを使用できるようになりますが、これは永続的な修正ではないようです。

MemTestエラーが発生するたびに、それらは常に64ビットアドレスバス上の同じ正確な位置で発生します。

Bit Error Mask: 00000000FF000000

さらに、4GBの境界を下回るとエラーが発生することはありません。つまり、すべてのエラーは4GB〜32GBのアドレス空間で発生します。

エラーは非常に一貫性があり、特定の構成でのみ発生し、RAMの速度を落とすことで緩和されるため、CPUとRAMおよびマザーボードとの何らかの奇妙な相互作用またはタイミングの問題であると推測しています。 4GBの障壁を超えてのみ発生します。私の質問は、CPUまたはマザーボードが原因である可能性が高いですか?

私はこのマシンをCore i7-4790Kにアップグレードするつもりでしたので、CPUが原因である可能性が高い場合(これらの新しいモデルではメモリコントローラがCPU上にあることがわかっています)、アップグレードする予定ですのでうまくいきますとにかく、マザーボード自体も問題の一部である可能性があるのではないかと思っています。つまり、まったく同じ問題を経験するためだけにi7 CPUにお金をかけたくはありませんし、マザーボードも交換する必要があります。

助言?


編集:より遅いRAMの速度はまだエラーを生成しましたが、テストが3回目のパスに達した後にのみ。CPU自体の相互作用をテストするために、1つのCPUのみをアクティブにしてテストを再開しました。


メモリ、mobo、またはcpuかどうかを確認する唯一の方法は、互換性のある別のシステムでramをテストすることです。
モアブ

2
RAMチップを移動しても問題が解決しない場合、マザーボードは投げられています。
ジョシュア

1
このメモリをデュアルで実行する場合、または4(8g)モジュールを搭載している場合は、SPD(自動)をオフにして、タイミングを少し調整して動作させることができます。10,11,10,24だと言って、11,12,11,32に調整し、代わりにそのようにテストします。(はい、これは推測です)それが100%ノンストップで機能する場合、熱の問題またはマザーボードの問題である可能性は低くなります。4x8gigモジュールをお持ちの方は、以前に説明した問題があります。電圧調整サポートがあり、CPUに曲がったピンがない場合、互換性リストにないものを機能させることができます。それをテストして私たちに戻ってください。
サイコギーク

2
「低速のRAM速度でもエラーが発生しましたが、テストが3回目のパスに達した場合のみ」これのいずれかで、ラムの冷却をテストするための追加の手順を実行していますか 一時的に追加されたファンまたは外部ファンがラムとその電圧調整回路に空気を移動させる場合でも、熱が問題の1つであるかどうかをテストできます。
サイコギーク

@Psycogeek +1タイミング修正の提案。一部のRAMモジュールは、タイミングに関しては他のRAMモジュールとはうまく動作しません(同じブランドまたはモジュールタイプであっても)。OPと同様の問題があり、タイミングを手動で設定することで解決しました。
-Amziraro

回答:


18

これは、コンポーネントに欠陥があるようには聞こえませんが、互換性のない組み合わせを使用しています。

同じメモリバスに複数のソケットを装着すると、各データラインの静電容量が増加し、立ち上がり時間が遅くなり、遷移が遅れて検出されやすくなる可能性があります。この現象は、電気技師にとって「ファンアウト」として知られています。

メモリモジュール内部のファンアウトにより、これはさらに複雑になります。「ランク」と呼ばれるモジュール上のDRAMデバイスの数とトポロジは、並列接続に成功するモジュールの数に影響します。

多くのメモリソケットをサポートするサーバーマザーボードは、実際にはバッファメモリを必要とします。このメモリは、バッファのカスケードネットワークを使用して、各ファンアウト(および静電容量)を制限します。バッファ自体に起因する遅延がありますが、バッファされていないメモリの容量は線形的に増加するのに対して、負荷の数とともに対数的に増加するだけです。

ウィキペディアでこれについて説明しています:https : //en.wikipedia.org/wiki/Memory_rank

マザーボードのマニュアルの中には、実際にこの種のものを呼び出しているものがあります。その他の場合は、RAM互換性リストから情報を推測できます。例として、ASUS Z170-Aマザーボードは、4つのシングルランクDIMMを一度に使用する能力とは対照的に、デュアルランク(マニュアルではDS =ダブルサイドと呼ばれる)はそのボードの2つのスロットでのみ使用できることを示しています。

ここに画像の説明を入力してください


これが問題の原因であると仮定すると、SPDをオフにし、立ち上がり/立ち下がり時間を遅らせるためにタイミング設定を少し遅くするのに役立ちますか?
ブランス

1
これが実際に正しいかどうかはわかりません。コンシューマーHaswellプロセッサは通常、チャネルごとに4つのメモリランクをサポートします。これは、2つのメモリチャネルで4つの両面モジュールを使用するのに十分です。なぜこれが問題になるのでしょうか?これは、問題が4 GBの境界を超えてのみ発生するという事実も説明していないようです。さらに、マザーボードのマニュアルには、基礎となるB85チップセットが32 GBのメモリをサポートし、メモリランクの数に関する制限は記載されていないことが記載されています。
-bwDraco

2
@bwDraco:メモリコントローラーはCPU上にありますが、マザーボードも重要です。PCBレイアウトはそれに影響を与える可能性があり、最適でない長さのマッチングは信号の位相マージンを減少させます(これはエラーが特定のバイトまたはビット位置に相関する理由でもあります)。マザーボードのマニュアルがランクについて言及していないということは、すべての組み合わせがサポートされていることを意味するものではなく、単に詳細に説明しないがらくたマニュアルであることを意味します。
ベンフォークト

1
@brhans:問題はタイミングパラメーターではなく、メモリクロック周波数です。問題はDRAMの内部ではなく、CPUとDIMM間の転送にあるためです。通常、SPDにはさまざまなクロック周波数に対応する多くのプロファイルがあります。これらの異なるものを選択することは、完全に手動で行うよりも優れています。
ベンフォークト

1
間違いなくマザーボードのシグナルインテグリティの問題のようです。特にモジュール自体がデュアルランクの場合、大きなモジュールは小さなモジュールよりもピンあたりの静電容量が大きくなる可能性があります。ランクを完全に設定すると、これがまさにこの問題を引き起こす可能性があります。モジュールが複数のランクを持つことは可能です。したがって、チャネルごとに4つのランクを簡単に2つのデュアルランク高密度モジュールにすることができます。これは、マザーボード上のトレースの電気的特性と配線によって悪化する可能性があります。私の提案:別のマザーボードを試してください。
alex.forencich

9

これは、プロセッサの統合メモリコントローラーの問題のようです。

最新のシステムでは、メモリモジュールとプロセッサ間のパスを提供するだけでなく、マザーボードはメモリ管理において実際には役割を果たしません。メモリはプロセッサに直接接続されており、レイテンシを最小限に抑えています。古いシステムのメモリをプロセッサに接続する「ノースブリッジ」は、プロセッサ自体の一部になりました。(ファームウェアまたはPCHは、プロセッサがRAMを実行する方法を制御する場合がありますが、最終的にプロセッサの責任であるため、説明した種類のビットエラーを発生させることは意味がありません。) dこのような状況では、IMCに問題があると思われます。

実際、発生している問題の原因がマザーボードまたはシステムファームウェアにあるとしたら、非常に驚​​きます。


曲がったピンはどうですか?
マイケルハンプトン

6
@Michael:ピンが曲がっていると、個々のモジュールのテストにも失敗します。
ベンフォークト

4

そのマザーボードのBIOSについていくつかの悪いレビューがあります。BIOSの更新を確認することから始めます。マザーボード上でけちをしないでください。


BIOSは最新のものです。確かに、RAMは「修飾」リストにはありませんが、そこにリストされている他の多くのモジュールと同じタイミングです。
-fdmillion

マザーボードの交換を検討します。一番上にある必要はありません。手頃な価格帯から始めて、レビューが最も多いものを探してください(それらも読んでください)。最大のユーザーベースを持つユーザーは、BIOSおよびチップセットの更新を長期的にサポートする可能性が非常に高くなります。
アトアダソ

そのマザーボードが32 GBのメモリを一度に適切に処理できるかどうかを確認しましたか?また、マザーボード上にメモリマネージャチップを見つけて、適切に処理できると予想されるメモリ量を調べることもできます。
milesrf

1

RAMが故障しているように見える場合でも、RAMが故障している可能性もあります。最近、ホームサーバーでアイスティーの致命的な事故が発生しました...

各部分を個別に交換するプロセス全体を実行しました(2つのCPU、mobo、電源、および16 GB(2x8GB)RAMの2つのバンク)。 1個のCPU(トースト)。

どの構成を使用したかは関係ありませんが、単一のCPUとRAMのバンク(16 GBまたは32 GBのRAM)がある場合は常に機能しましたが、2番目のCPUを挿入し、RAMを分割して16 GBにしたとき銀行ごとに、サーバーは起動に失敗しました。

RAMの1つのバンクを完全に交換してから、ようやく起動して正常に実行され、それ以来ずっとそうです。

tl; dr:@moabが彼のコメントで述べたように、互換性のあるシステムのすべてのコンポーネントをテストするまで、確実に言うことはできません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.