ハードウェアエラー確率の推定


13

http://www.nersc.gov/users/computational-systems/edison/configurationで4時間、10万コアでスーパーコンピューター計算を実行し、ネットワーク上で約4 PBのデータを交換し、約4 TBのI / O. 計算はすべて整数であるため、結果は正しいか間違っています(中間の数値エラーはありません)。

コードが正しいと仮定して、ハードウェア障害のために計算が間違っている確率を推定したいと思います。これについて良い方法は何ですか?そのような推定を行うために必要な数値の良い情報源はありますか?


CPUやRAMの結果は、ネットワークの問題やディスクの考慮事項と比較して本当に安定していると思います。
meawoppl 14年

回答:


5

発表されたさまざまなエクサスケールのレポートを見ましたか?困難な故障は、今日では重大な懸念事項ではありません。確かに発生しますが、重大な心配を引き起こすほど頻繁には発生しません。しかし、以上のコアを備えたエクサスケールシステムでは、コードが適切に反応するように準備する必要があるため、十分に頻繁であると推定されます。これらの問題はエクサスケールへのロードマップに関する報告書に記載されていると思います。O108

私の回想では、さまざまな障害モードの中で、メモリまたはプロセッサコアのシングルビットフリップは最も重要な問題ではありませんでした。むしろ、たとえばディスク障害、オペレーティングシステムの障害などが原因でノード全体がダウンしていました。したがって、現在のエクサスケールの設計ではすべて、フラッシュRAMへのコードの定期的なチェックポイント設定が必要です。システムは、あるノードが消えたことに遭遇した場合、以前に保存された状態からその場でコードを再起動し、このノードをシステム内の別の場所のホットスタートノードに置き換える必要があります。


それはまさに私が必要なもののように聞こえます。特定の例を念頭に置いていますか?
ジェフリーアーヴィング14年

1
さまざまなDoEレポートの中に、あなたの興味を引くものがあるかどうかを確認します。exascale.orgについても知っていると思いますか?あなたのためにそこに読むことがたくさんあるはずです。
ヴォルフガングバンガース14年

1
決定的なエクサスケールレポートであるGeoffはPeter Koggeによるもので、オンラインで入手できます。回復力という言葉の出現を見てください。そうは言っても、NERSCで、そのマシンについてより具体的な情報を持っている可能性のある少数の人々を指摘できます。
アロンアフマディア14年

@AronAhmadia:ありがとう、そのドキュメントは素晴らしく見えます。それはより多くの私が興味を持っていたエラーのクラスのをカバーしなければならないので、私はこの答えを受け入れるよ。
ジェフリー・アーヴィング

@Wolfgang:これは、Minutemanミサイルがチェックポイントでプログラムされた冷戦時代を思い出させます。そのため、近くで中性子フラッシュが発生し、プロセッサが瞬時にシャットダウンした場合、最新のチェックポイントから再開できます。正当なタイミングでチェックポイントを取得した場合、「再起動保護」と呼ばれていました。
マイクダンラベイ14年

9

私は、DRAMなどのコンポーネントのエラー率を収集することから始めていると思います。このGoogle の野生でのDRAMエラーに関する調査:大規模なフィールド調査では、年間1%の修正不可能なエラーが発生する可能性があることがわかりました。

それがあなたが興味を持っているものかどうかはわかりません。検出できないエラーにもっと興味があります。一般的なエラーチェック方法では検出できないようなエラー。たとえば、オプティクスを介してパケットを送信すると、何らかのCRCが伴うため、エラーがわずかにすり抜ける可能性があります。

更新:本書では、マルチコアプロセッサのオンラインエラー検出および回復のアーキテクチャについて、信頼性の高いマルチコアアーキテクチャについて説明していますが、システムの信頼性のさまざまな側面についても取り上げており、参考文献があります


素晴らしい研究。多くの直感、古い、ホット、頻繁に使用される、ほぼ満杯のラムは信頼性が低いことを確認します。ベンダー固有の障害や一般的に悪いアーキテクチャが存在しないことに多少驚いています。
meawoppl 14

3

そのような推定を行うために必要な数値の良い情報源はありますか?

計算しているクラスターの管理者に尋ねてみてください。検証プロセスの一環として、ハードウェアエラーの可能性を推定する問題に直面したと思います。


ありがとう!後知恵で明らかですが、私には発生していませんでした。
ジェフリーアービング14

2

壮大な音。誰もこの実験を行っていない場合は、エラーレートが何であるかを確認しながら、sha1の入力を何度も再ハッシュするようなことを行う、10万個のコアを実行することを検討してください。(測定できないと思います)、そこから同じことをしますが、ネットワークエラー率を得るためにハッシュチェーンの結果を頻繁に交換させます。これも非常に小さいと思いますが、スーパークラスターを使用して数時間で少なくともカップルを取得できると思います:)

ハッシュはシングルビットスワップに非常に敏感であるため、このアプローチはすべての計算が正しいことを保証します。一方、整数のみの計算でも分岐のエラーを隠す可能性があります。

私は、偽の結果を送信することでチートすることを動機とする外部クラスターによってコードが正しく実行されるようにする方法に取り組んでいます。私が集中した解決策は、ハッシュを計算に統合することです。これにより、作業を行うよりも不正行為の効率が低くなります。


2
残念ながら、ビットコインのマイニングのスキームが承認されることはまずありません。:)
ジェフリーアーヴィング14

Tee hee hee。そのまさに仕事の証明。:P
meawoppl 14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.