回答:
通常のデュアルソケットシステムでは、いいえ。ただし、プロセッサとRAMのホットスワップを許可するサーバーがあります。したがって、これらは存在しますが、非常にハイエンドの市場にあります。
サーバーで障害が発生する可能性のあるものすべての中で、プロセッサはリストの一番下、マザーボードからシャーシを守る小さな真鍮製のライザーの隣にあります。
x86コモディティハードウェアについて言えば、システムが実行されていてCPUに障害が発生した場合、正常に停止します。ただし、多少遅くなりますが、システムは再起動後に正常に機能します。
複数のCPUは、実際にはフォールトトレランスのためではなく、主に並列処理を行うためにあります。ただし、CPU(またはそれ以上)が失敗する場合でもブートするシステムがあると便利です。
マークヘンダーソンが示唆するよりも、CPUに障害が発生する可能性が少し高いと思いますが、それでも非常にまれです。私の経験では、ほとんどの場合、システムが頻繁に過熱してシャットダウンするときに発生します(空調の悪いオフィスサーバールームでは非常に簡単です)。CPUはそれをあまり好まない傾向があります。
もちろん、優れたIBMメインフレームなどを使用している場合、CPU(ボード)のホットスワップは「簡単」です。
CPUに障害が発生した場合(他の回答では非常にありそうもないことですが)、基本的にシステムが回復するためにできることは何もありません。失敗した方法によっては、奇妙な方法でメモリを破損したり、プロセステーブルを破壊したり、誰が他に何を知っているかを知ることができます。CPUのタブを保持して、正常に動作していることを確認する(たとえば、死のスロー中にCPUによって行われた変更をロールバックできる)アクティブな監視システムがある場合、それは別のシステムにもなります。それは失敗する可能性があり、プログラムでソフトウェア障害を判断するのはかなり難しいです(基本的にあなたが実際にそれを行うことができる唯一の方法は、まったく同じことを別のCPUにまったく同じことをさせて結果を比較することです-そしてそれは物事を遅くしますダウンするような
とはいえ、CPU障害はまれですが、システムでCPUカウントを増やすと、実際に障害が発生する可能性のあるものが2倍になるため、実際に障害率が上がります。CPUのキャッシュの同期を維持するサブシステムなど、故障する可能性のある他のサブシステムもあります。また、電力消費と熱出力の増加は、システム全体の故障の原因にもなります(もちろん、アクティブな冷却ファンも障害点)。
どの種類の障害を処理するかを正確に定義する必要があります。コア/ CPU /コンピューターの集まりがネットワークとして機能していると考えると、障害の1つのタイプは、ノードが単に応答を停止することです。より深刻な障害は、ノードがデータの破損を開始し、障害のある情報を他のノードに送信することです。これはビザンチン障害と呼ばれ、最悪の場合、戦略的な「嘘」によってネットワークの運用を積極的に混乱させます。ビザンチンに向かうノードの3つ以上を処理できるシステムがないことを示すのは比較的簡単です。
行う必要があるのは、予想される障害の種類を正確に決定し、それを念頭に置いてシステムを設計し、任意の数の悪意のあるノードを処理する問題が解決できないという事実を受け入れることです。あなたのケースでは、そのうちの1つに障害がある場合、少なくとも4つのCPUが必要です。
補足:量子物理学では不可能はありませんが、特定の行動を統計的に観察する機会を得るために宇宙の年齢よりも長く待たなければならない場合、それが可能だと言う必要はありません。システムを設計するときは、このことに留意してください。;)