クラッシュやビザンチンではない分散コンピューティングのプロセッサ障害


13

分散コンピューティングモデルには、主に2つのタイプのプロセッサ障害があります。

(1)クラッシュ障害:プロセッサが停止し、再び起動することはありません。(2)ビザンチンの障害:プロセッサーは敵対的に、悪意を持って振る舞います。

私の質問は:

クラッシュやビザンチン障害に減らない、研究されている他のタイプのプロセッサー障害とは何ですか?

また、より具体的な質問:

ある確率でプロセスが時間ステップでオンになり、そうでなければオフになるモデルが研究されましたか?そのため、各プロセスは、あちこちで点滅しています。t

私は、これらの失敗がコンセンサスやその他の分散合意の問題にどのように関係しているかに最も興味を持っています。

ありがとうございました。


@Aaron:数年前に「分散システム」と「フォールトトレラントシステム」のコースを受講しましたが、それらのトピックにはあまり興味がありません。それでも、動的障害モデルというキーワードが役立つと思います。
MS Dousti

1
自己安定化の分野で使用されている障害モデルは、クラッシュ障害やビザンチン障害に減少しないと思います。それをビザンチンの失敗に関連付ける1つの方法:ビザンチンの一時的な振る舞いを持つことができますが、そのような動作が停止した場合、自己安定化システムは正しい状態に到達する必要があります。
ユッカスオメラ

1
あなたのより具体的な質問に関して:プロセッサが確率で「オン」の場合、プロセッサは常にオンであるが、メッセージが宛先に到達するために、例えば1 / pラウンドかかる非同期モデルのように聞こえます。おそらく、これがあなたが念頭に置いていたモデルとどのように異なるかを明確にできますか?p1/p
ユッカスオメラ

1
@Aaron:この種のモデルがどれほど研究されているのか、私には本当にわかりません。しかし、実行時間Tの決定論的な同期アルゴリズムがある場合、αシンクロナイザーを使用して非同期モデルでAをシミュレートすることができ、予想実行時間はT / pのようなものになると思います。(αシンクロナイザーは、Aのシミュレーションにおいて、隣人が1時間ステップ先または後を超えないことを単に保証します。)ATαAT/pαA
ユッカスオメラ

2
@Aaron:私はMichel Raynalによる分散コンピューティングの理論を採用し、メッセージをランダムにドロップできる3番目のモデルについて説明しました。そのモデルでは、メッセージの配信がサイレントに失敗する可能性がありますが、それは必ずしもノードが失敗したことを意味するわけではありません。それはあなたがここでそれについて続きを読むことができ、リンク障害ではなく、ノード障害「フェアの非可逆チャネルモデル」についてです:失敗検出神託への入門調査として消費制服信頼性の高い放送-マイケル・レイナル(ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz
M.アラガン

回答:


12

リクエストごとの質問に対するコメントからコピー。

Michel Raynalで分散コンピューティングの理論を取り入れ、メッセージをランダムにドロップできる3番目のモデルについて説明しました。そのモデルでは、メッセージがサイレントに配信されない場合がありますが、それは必ずしもノードが失敗したことを意味するわけではありません。これはノード障害「公平な損失の多いチャネルモデル」ではなく、リンク障害に関するものです。詳細については、こちらを参照してください。 PI-1356.ps.gz)


10

ビザンチンのフォールトトレランスに伴うリソースコストが高いため、特に制限されたタイプのフォールトを許容するためのリソース要件に関して、ますます強力な仮定を持つ障害モデルが分析されています。(Azadmanesh and Kieckhafer、2002)は、非常に優れた分類を提供します(図1を参照)。

完全に非対称なビザンチンの挙動(ノードが必要)と良性のクラッシュフォールト(f + 1ノード)の間の障害モードのタイプは、あなたが探しているもので、すでに他の人によって言及されていますが、対称(省略)障害。一部の受信者はメッセージを受信しませんが、f障害を許容するために2 f + 1ノードのみを必要とするノードは値障害(敵)メッセージを受信しません。上記のペーパーは、混合シナリオのリソース要件も要約しています。3f+1f+12f+1f

障害モードの仮定をモデル化するもう1つの方法は、ノード中心の視点から離れ、送信者の障害としてモデル化されたメッセージ損失からリンク障害モデルに移行することです。システムが考慮されます。このモデルは(Schmid、Weiss、and Rushby、2002)によって調査されておりリンク障害下のCoordinated Attack問題の決定論的解決を示す(Grey、1978)の不可能性の結果を回避しています。


8

@Mかどうかはわかりません。Alagganはこの種の障害について話していましたが、それらは確かに似ています:一時的な障害です。

エネルギー消費を削減するために周波数と電圧を変更できるDVFSのモデルでは、この論文(pdf)のZhuとAydinはDVFSの障害モデルを使用しました。一時的な障害を考慮します。これは、たとえばソフトウェアエラーによって引き起こされる障害です。それらは現在のタスクの実行のみを無効にし、その障害の対象となるプロセッサは、それに割り当てられた後続のタスク(存在する場合)を回復して実行できます。

λ

λf=λpedfmaバツffmaバツfmn
fmnffmaバツd0λpfmaバツpTpf
Rf=eλf×Eバツecあなたはton TmeTf

元の投稿から長い間これを投稿してすみませんが、このテーマに取り組んでいたときにこの質問を見つけました:)。DVFSを勉強していないとき、これらの障害はまだ存在し、式はおそらくまだ有効(または適応可能)です。ここで、 DVFSを使用しない一時的な障害に関する詳細情報を参照できます。


4

すでに述べた脱落失敗モデルについては、異なる種類を考慮したNeigerTouegを見てください。

ある確率でプロセスが時間ステップtでオンになり、そうでなければオフになるモデルが研究されましたか?そのため、各プロセスは、あちこちで点滅しています。

これは、クラッシュリカバリモデルのように聞こえます。プロセスが確率的にオン/オフされるモデルは知りません。プロセスがしばらくの間ビザンチンであり、その後回復するバリアントもあります。そのうち、すべてのプロセスがビザンチンになる可能性があります(ただし、ほとんどがクロック同期と見なされます)。

オフであるということは、プロセスが進行していないだけで(状態が失われず、レシーバーが「オフ」になっているためにメッセージが失われないことを意味する)、あなたが見ているものは非同期と呼ばれることに注意してくださいシステム。共有メモリのコンテキストでは、質問はこのAspnesの論文と密接に関連している可能性があります。


1

他のタイプの障害が発生する可能性があります。たとえば、一部のプロセッサ(たとえば、ブロードキャストまたはマルチキャストプロトコル下)が過負荷になり、すべての着信メッセージを処理できない場合があります。これにより、分散システム内の一部のプロセッサからプロセッサがオフラインに見えるようになります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.