ミラーモードRAM:価値はありますか?


18

ブレードサーバーのセットアップ用のIntelの「ミラーチャネルモード」(ベアメタルブレードで実行される中程度の重さの典型的なMySQL OLTPデータベース。現在仮想化はありません)にはあまり馴染みがありません。

インテルのドキュメントから、私は見つけることができました:

Intel Xeon Processor 5500シリーズおよびIntel Xeon Processor 5600シリーズは、ミラーリング構成でDDR3 DIMMの利用可能なチャネルを構成するためのチャネルミラーリングをサポートしています。ミラーリングされた構成はメモリの冗長イメージであり、修正不可能な散発的なエラーが存在しても動作を継続できます。チャネルミラーリングは、メモリデータの2つの同一イメージが維持されるRAS機能であり、最大限の冗長性を提供します。

Intel Xeon Processor 5500シリーズおよびIntel Xeon Processor 5600シリーズプロセッサベースのIntelサーバーボードでは、チャネル間でミラーリングが実現されます。アクティブチャネルはプライマリイメージを保持し、他のチャネルはシステムメモリのセカンダリイメージを保持します。Intel Xeon Processor 5500シリーズとIntel Xeon Processor 5600シリーズプロセッサの統合メモリコントローラは、読み取りトランザクションのために両方のチャネルを交互に切り替えます。通常の状況では、書き込みトランザクションは両方のチャネルに発行されます。

しかし、私は彼らがここに置いているものを本当に拾い上げているわけではありません。ストレージ容量の半分を失いますが、メモリの「冗長性」を獲得し、読み取り/書き込みパフォーマンスの利点を得ることができますか?RAMのRAID 1が好きですか?この構成で実際に経験した人はいますか?

回答:


7

個人的には、そのレベルのハードウェア回復力ではなく、何らかの形でクラスタリングを使用することになりました。ディスクなどの安価なコンポーネントを2倍にすることは理にかなっていますが、メモリのミラーリングは便利ですが、それほど便利ではありません。失敗する可能性が高いものを意味します。CPU、OS、ソフトウェア、モボ、PSU。私はすぐにクラスタリングにお金を使います。


1
私の考えは正確です。確かに非常に特定の障害ポイントには役立ちますが、別のブレードまたは2つ(および別のデータセンター内の別のシャーシ)でクラスタリングルートに進むことで、より多くのHA "ボックス"をオフにできます。
-gravyface

1
クラスタリングは、計算をスケジュールどおりまたは時間枠内で行う必要がある場合には役立ちません。状況によっては、実行に必要な操作よりフェールオーバーに時間がかかる
ジムB

7

「RAM用RAID 1」は正確な説明です。私の経験では、パフォーマンス上の利点はあまりありませんが、バスの速度とモジュールの速度に応じて、走行距離は異なる場合があります。

冗長性に関する限りでは、まあ、モジュールが悪くなることはそれほど頻繁ではありません。

個人的には、ミラーリングが有効になっているときはいつでもミラーリングをオフにします。


2
ありがとうシェーン。前後にベンチマークを行ったことはありますか?
-gravyface

@gravyface残念ながら私が持っているとは言えません。オンとオフ(データベースサーバーとvmホスト)のパフォーマンスが異なることに気付かないだけです。いくつかの難しい数字は間違いなくいいでしょう。
シェーンマッデン

2
その後、ベンチマークをいくつか行います。違いがあるかどうかを確認してください。エラー修正の利点が具体的な利点のように聞こえるとは言えませんが、どのように機能するのか興味があります。いくつかの追加の回答を数日待ってから、これを正しいとマークします。
-gravyface

私は調光が失敗することを繰り返しますが、環境の規模を考えると、2週間ごとに1調光を見る必要があります(統計的に言えば)
ジムB

4

この種のこと(CPUでも同様にできること)は、巨大なスーパーコンピュータークラスターで非常に役立つことを読みました。

これらのクラスターのいくつかは非常に多くのマシンを実行しているため、数時間ごとにマシン障害が発生します。ジョブが完了するよりも早く。それは本当に計算を台無しにします。このような冗長性を各ノードに追加すると、障害の間隔が2倍以上になります。


だからこれはハイエンドなもので、今は主流にまで流れています。私のニーズにはあまり価値がありません。どうもありがとう。
-gravyface

はい、ハイエンドです。PCでホットプラグCPUとCPUミラーリング(!)が得られるまで待ちます;)メインフレームは、1つが故障すると別のCPUに切り替えることができます。
トムトム

3

このメモリモードは、高可用性が必要な状況向けに設計されています(通常の操作では1つのチャネルの損失はおそらく目立たないため)でも、実際には多くのRAMを失います。ミラーリングを有効にすると、2つのDIMMスロットがプライマリチャネル、2つのDIMMスロットがバックアップチャネル、2つのDIMMスロットが使用されないため、合計メモリの3分の1しか使用できません。(少なくとも、IBMの場合はそうです)

私は通常、それをオフにすることをお勧めします(ramが好きなアプリやOSがある場合-それに直面しましょう:そうでないものがありますか?)またはIBMからex5チップセットにアップグレードするために保存してください似たようなサービスを提供するため)、ボートのQPIが増えます。

時折「このサーバーは、発射されたショットの数に関係なく稼働している必要があります」があり、このタイプの冗長性が役立ちます。さらに、優れた品質のRAMを購入しなかった場合、ブルースクリーンまたは2を節約できます。


ええ、今のところこの必要性はあまりありません。明らかにダウンタイムが好きな人はいませんが、HAに対処するときは、最も確実にクラスタリングを検討します。
gravyface

1
これは、「2週間ごとに1枚の不良DIMMを確認する」ことに対応しており、猶予期間を過ぎてどのくらいの頻度で不良DIMMを確認していますか?本番環境で一度RAMが不良になったことを思い出すことはできません。通常、典型的な作業負荷の下で最初の数時間/日に気づきます。
-gravyface

結果は、Googleがcs.toronto.edu/~bianca/papers/sigmetrics09.pdfで認識しているレートを反映しています。同様に構成されたサーバー-多くの調光機能を備えた完全に実装されたボード、およびメモリ集約型のアプリケーションがあります。vmware環境の1つを見ると、18個の完全に実装されたIBM hs22vs(324 dimms)で3つの調光不良があります。これらのサーバーは約1年稼働しています。
ジムB
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.