引用したCMU-Intelの論文(5ページ)には、エラー率がDRAMモジュールの部品番号/製造日に大きく依存し、10〜1000倍に変動することが示されています。また、最近(2014年)に製造されたチップでは、問題がそれほど顕著ではないという兆候もあります。
あなたが引用した番号「9.4x10 ^ -14」は、「PARA」と呼ばれる提案された理論的な緩和メカニズムのコンテキストで使用されました(既存の緩和メカニズムpTRR(疑似ターゲット行の更新)に似ている可能性があります)なぜなら、PARAはECCとは何の関係もないからです。
2番目のCMU-Intelのペーパー(10ページ)では、さまざまなECCアルゴリズムがエラー削減に及ぼす影響について説明しています(10 ^ 2から10 ^ 5の係数。洗練されたメモリテストと「ガードバンディング」によりさらに大きくなります)。
ECCは効果的にRow Hammerの悪用をDOS攻撃に変えます。1ビットエラーはECCによって修正され、修正不可能な2ビットエラーが検出されるとすぐにシステムが停止します(SECDED ECCを想定)。
解決策は、pTRRまたはTRRをサポートするハードウェアを購入することです。Row Hammerに関する現在のシスコのブログ投稿を参照してください。少なくとも一部のメーカーは、これらの軽減メカニズムの1つをDRAMモジュールに組み込んでいるように見えますが、仕様には深く隠されています。質問に答えるには、ベンダーに問い合わせてください。
より速いリフレッシュレート(64ミリ秒ではなく32ミリ秒)および積極的なパトロールスクラブインターバルも役立ちますが、パフォーマンスに影響があります。しかし、これらのパラメーターを実際に調整できるサーバーハードウェアは知りません。
オペレーティングシステム側では、CPU使用率が高く、キャッシュミスが頻繁に発生する疑わしいプロセスを終了する以外にできることはあまりないと思います。