タグ付けされた質問 「ecc」

エラー訂正コード(ECCメモリ)は、どのような状況でもデータの破損を許容できないほとんどのコンピュータで使用されます。


3
LinuxでECCエラーの通知を受け取るにはどうすればよいですか?
ECCメモリを搭載したLinuxマシンがメモリ障害を認識すると、どのように通知されますか?修正可能なエラーと修正不可能なエラーの両方に興味があります。 メッセージがdmesg / syslogに書き込まれている場合、これはすでに問題ありませんが、何を探すべきかを知りたい 追加のデーモン(ハードドライブ用のsmartmontoolsなど)のインストールは許容されます Nagios / Icingaモニタリングは、もう1つの方法です 監視対象のすべてのマシンにIPMIがあるわけではありません 興味のあるシステムにはSupermicroボード(X9SCM-F)があり、HP N54Lマイクロサーバーに関しては私はただの好奇心ですが、あまり気にしません。すべてのシステムはDebianまたはUbuntu Linuxを実行します。
23 linux  ecc 


2
Rowhammer DRAMバグとは何ですか。
DRAMチップは非常に密集しています。調査により、隣接するビットはランダムに反転できることが示されています。 ECCを備えたサーバーグレードのDRAMチップでバグがランダムに発生する可能性はどれくらいですか(CMU-Intelの論文では、たとえば1年で1つの障害が発生した未知のチップの番号9.4x10 ^ -14を引用しています)。 メモリを購入する前に、バグが修正されたかどうかを知るにはどうすればよいですか? CentOS 7などでテナントや非特権ユーザーなどによる特権エスカレーションを行う悪意のある試みに対処するにはどうすればよいですか? 参照: 悪用されたRow Hammer DRAMバグ、物理メモリへのアクセスのロックを解除 アクセスせずにメモリ内のビットを反転する:DRAM障害エラーの実験的研究 GoogleのPoCリポジトリ プロジェクトゼロの評価
20 security  memory  ecc  bug 

2
サーバーRAMを購入する前に知っておく必要があるRAMオプションは何ですか?
この投稿を改善したいですか?引用や回答が正しい理由の説明など、この質問に対する詳細な回答を提供します。十分な詳細のない回答は、編集または削除できます。 これは、サーバーメモリに関する標準的な質問の提案です。 Dell R420サーバーを購入する必要があり、さまざまな組み合わせ(1600および1333 MHz RDIMMSおよびUDIMMS)と、パフォーマンスを最適化したvs. UDIMMには4GB DIMMしかないことに気づいたので、16GB RDIMMSに行く必要があります。 これらのオプションとは何ですか、それらについて何を知る必要がありますか?
17 memory  hardware  ecc 

3
ZFSを使用した非ECCメモリ:馬鹿げたアイデア?
新しいサーバーがあり、わずかな2 GBのメモリを最大16 GBにアップグレードする予定です。(理論的には8 GBが制限ですが、経験的には16 GBが機能することが示されています。) 一部のガイドは、ECCメモリはそれほど重要ではないとアドバイスしていますが、私はこれを信じていません。 FreeNASをインストールしました。新しいハードドライブが到着したらすぐにZFSボリュームを追加する予定です。ZFSベースのNASでECC以外のメモリを節約して取得するのは愚かなことでしょうか?それが必要な場合、私は弾丸を噛みますが、それが単なる妄想である場合、私はおそらくそれをスキップします。 ZFSやFeeeNASは何らかの理由がある特に ECCメモリを必要とする、または非ECCメモリを使用して、システム上で実行されている場合は特に苦しむでしょうか?
16 memory  zfs  freenas  ecc 

1
ECC DIMMを搭載したDell PowerEdge R710 BiosでBIOS「Advanced ECC」を使用する必要がありますか?
デュアルIntel Xeon E5503 CPUを搭載したDell PowerEdge R710があります。96GB(12x8GB)のECC DIMMを搭載しています。BIOSでは、メモリは「アドバンストECC」用に構成されています。 私の質問は、DIMMが既にECCである場合、BIOSでこの「アドバンストECC」モードを有効にするのは理にかなっていますか、または「最適化」に切り替える必要がありますか? デルでは、これらのモードについて次のように説明しています。 アドバンストECCモード このモードでは、2つのMCHを使用し、それらを「結び付け」て128ビットのデータバスDIMMをエミュレートします。これは主に、x8 DRAMテクノロジーに基づくDIMMのシングルデバイスデータ修正(SDDC)を実現するために使用されます。SDDCは、すべてのメモリモードのx4ベースのDIMMでサポートされています。1つのMCHは完全に使用されておらず、このチャネルにインストールされているメモリはPOST中に警告メッセージを生成します。 メモリ最適化モードこのモードでは、MCHは互いに独立して実行されます。たとえば、1つはアイドル状態、1つは書き込み操作を実行中、もう1つは読み取り操作の準備中です。メモリは、1つ、2つ、または3つのチャネルに取り付けることができます。メモリ最適化モードのパフォーマンス上の利点を完全に実現するには、CPUごとに3つのチャネルすべてを実装する必要があります。これは、3GB、6GB、または12GBなどの一部の「非定型」メモリ構成で最高のパフォーマンスが得られることを意味します。特定のRAS機能が必要でない限り、これは推奨モードです。 Dell PowerEdge R710システムハードウェアオーナーズマニュアル(PDF)

5
ECCメモリの重要性
重要ではないサーバーにECCメモリモジュールを搭載することは重要ですか? 私は自分自身に、ランダムで重要ではないものがたくさんあるおもちゃ専用のサーバーを用意することを考えていました。散発的な再起動は大した問題ではありません。私は1つのプロバイダーを見ていますが、価格はめちゃくちゃ安いです。ハードウェアは、デスクトッププロセッサ、非ECC RAM、無名のシャーシ、ホットスワップSATA HDDなしなど、深刻なサーバーボックスの冗談のように聞こえます(価格がそれを正当化すると思います)。 私は「深刻な」サーバーでECCメモリを当たり前だと思っているので、それが「おもちゃ」のアプライアンスにとって大したことなのかどうか疑問に思っています。

4
RAMがECCモードで実行されているかどうかを確認するにはどうすればよいですか?
プロセッサを交換してからこの投稿を更新しましたが、私の質問の核心(そして残念ながら結果も)は同じです。 最初のFreeNASボックスを構築し、重要なデータを保存したいので、ECC RAMを使用したいと思いました。私は予算が足りないので、ECC RAMをサポートする最も手頃なソリューションを求めていました。 調査したところ、マザーボード、メモリ、ECCをサポートするCPUが必要であることがわかりました。私が選んだマザーボードは、C232チップセット、DDR4、LGA1151ソケットを備えた「ギガバイトX150M-Pro ECC」です。 また、モデル番号「KVR21E15S8K2 / 8」のキングストン製の2枚のDIMMのキットも購入しました(スペックシート)。ギガバイトはテスト済みのメモリモジュールのリストを公開し、私のモジュールは動作中のECCでサポートされているようです(サポートされているモジュールのリスト)。 予算が足りないので、ECCをサポートする手頃な価格のSkylake CPUが必要でした。Intelによれば、Celeron G3900はECCをサポートしているので、ECCを使用しました。 コンピュータを構築した後、システムが本当にECCメモリで実行されており、マザーボードのBIOSに入っていることを確認したいと思いました。さまざまなインターネットサイトから、一部のマザーボードにECCが機能しているかどうかを通知する特別なセクションがあることを発見しましたが、私のマザーボードにはそれがないようです。すべてのメニューを確認したところ、類似のセクションが見つかりませんでした。 さらに調査を行ったところ、UnixとLinuxのスタック交換に関する投稿が見つかりましたが、私の問題は解決しませんでした。memtest86+「ECC」という値すらわからない最新のものを試してみました。ピュージェットのシステムで使用されていた「ECC:オフ」を示す古い4.20バージョンを試しました。ただし、前述の投稿を読んだ後、それが真実を物語っているとは思えません(たぶん、そのため機能が削除されましたか?)。どちらのバージョンも、DIMMの正しい速度と遅延を読み取れなかったため、への疑問が深まりmemtest86+ます。 もう一つの一般的な方法は、ECCが動作している場合、発行することだった、調べるにはdmidecode -t memory、コマンドをし、読み出しTotal WidthとData Width。私の結果は以下の通りであった128 Bitsと64 Bits、それぞれ。出力の一部には、キーと値のペアがであるメモリ配列に関する詳細が表示されましたError Correction Type: Single-bit ECC。 を期待し72 bitsていたTotal Widthので、デュアルチャネルに関連している可能性があると考え、メモリモジュールを2つの隣接するスロットに移動しました。これにより、デュアルチャネルが使用できなくなりましたが、結果は同じでした。これはの完全な出力ですdmidecode -t memory。 私はピュージェットシステムが公開した興味深いCプログラムを試してみましたが、結果はであり0、ECCサポートがないことを示しています。 今、私はIntel自身のウェブサイト上のデータが正しいことと私のCPUが実際にECCをサポートしていないことに疑問を感じ始めています。メモリとマザーボードの両方に「ECC」という特別なブランドが付いているので、それらを除外できます。 BIOSバージョンがECCを有効にするために更新が必要(現在は何もない)か、ECCが実際に既に機能していて、確認できなかった可能性はありますか?または、ECCメモリを実行したいのにIntelのWebサイトが間違っている、または誤解を招く場合、CPUの選択は間違っていますか? 私のCPUが間違った選択であることが判明した場合、「予算ECC CPU」の次の最良の選択は何でしょうか? 更新:私のシステムがECCを有効にして実行されている可能性があり、ツールが奇妙なデータを報告するだけであるという新しい兆候を見ましたdmidecode。FreeNASフォーラムでは、ユーザーDusanがサーバーグレードのハードウェア(SuperMicro MB、Xeon CPU、Kingston DIMM)を使用しており、と同様の出力が得られ128 Bitsます。しかし、彼はそれが実際に機能するかどうか、自分自身はわからないことを書いた。 更新2: yagmoth555 がこの質問への回答で述べたように、私のマザーボードはXeonプロセッサを備えたECCのみをサポートしているようですが、メモは以前のマニュアルからコピーされたものだと思いました。Xeonプロセッサを調べる必要があることを意味していると思います。:-/ 更新3: Xeon E3-1220v5を購入しました。もちろん、ECCをサポートしており、マニュアルの要件を満たす必要があります。すべてのテストを再度実行してECC機能を確認しましたが、結果は基本的に同じです。 Puget Systemsのコメントから、このecc_check.cプログラムはXeonおよびCore i7プロセッサーでは動作しないようです。:-/ memtest86+今回はさらにチェックアウトしましたが、間違った速度とタイミングだけでなく、インストールされているDDR4の代わりにDDR3も報告するため、DDR4またはC232チップセットをまったくサポートしていないことは間違いありません。ただし、プロセッサは問題なく検出されましたが、の両方のバージョンで同じ最終結果が得られましたmemtest86+。 …

1
ECCエラーを強制する方法[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? サーバー障害のトピックになるように質問を更新します。 4年前休業。 これらのエラーからの回復に関連するコードをテストするために、DRAM DIMMでECCエラーを強制する方法を探しています。インテルは数千ドルでテスト治具を作っていると思いますが、もう少し安いものを探しています。 ハードウェアで「ビットフリップ」を強制するために、DIMMに接続されたベータエミッタ(Strontium 90、0.01uCi)を購入しようとしました。2週間実行した後、ECCエラーが報告されません。 私の次のステップは、より強力なエミッターを購入するか、他の誰かがこれを別の方法で解決したかどうかを確認することです。 質問:テスト目的でDIMMのECC障害を強制する方法を見つけた人はいますか(障害のあるDIMMを見つけてそれを使用する以外は、DIMMが完全にゴーストを放棄するまでこれは私たちの古い手法でした)。
10 ecc 

1
ECC訂正可能なエラー警告をどれほど真剣に受けるべきですか?
Sun X2200-M2サーバーの山があります。これらのサーバーにはECCメモリがあります。 これらのサーバーの一部では、eLOMで「修正可能なECCエラーが検出されました」という警告が表示されます。例: # ssh regress11 ipmitool sel elist 1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted 2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted ...他よりも頻繁にある。 この特定のシステムのカーネルもEDACエラーをスローしていますが、eLOMがECCイベントを記録する頻度よりもはるかに頻繁です。 EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no …
8 ecc 

2
ECCチップキルエラー:どのDIMMですか?
多くの場合、サーバーのDIMMが不良になり、syslogに次のエラーが表示されます。 5月7日09:15:31 nolcgi303カーネル:EDAC k8 MC0:一般的なバスエラー:参加プロセッサ(ローカルノード応答)、タイムアウト(タイムアウトなし)メモリトランザクションタイプ(汎用読み取り)、memまたはi / o(memアクセス) 、キャッシュレベル(汎用) 5月7日09:15:31 nolcgi303カーネル:MC0:CEページ0xa0、オフセット0x40、粒度8、シンドローム0xb50d、行2、チャネル0、ラベル "":k8_edac 5月7日09:15:31 nolcgi303カーネル:MC0:CE-利用可能な情報なし:k8_edacエラーオーバーフローセット 5月7日09:15:31 nolcgi303カーネル:EDAC k8 MC0:拡張エラーコード:ECCチップキルx4エラー HP SmartStart CDを使用して、エラーが発生しているDIMMを特定できますが、その場合はサーバーの稼働を停止する必要があります。サーバーが稼働しているときにどのDIMMが破綻するかを理解するための賢い方法はありますか?すべてのサーバーは、RHEL 5を実行するHPハードウェアです。
8 linux  hardware  memory  ecc 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.