単一イベントの混乱は、もはや宇宙でも飛行機でもありません。私たちは10年以上、おそらく今では2つ以上、表面上でそれらが起こるのを見てきました。
ただし、前述のように、少なくとも宇宙アプリケーションでは、トリプル投票を使用して動揺を処理します(各ビットは実際には3であり、3分の2の投票が勝つため、他の2つを変更するものがあればそれがカバーされます)。そして、ECCまたはEDACで、予測されたシングルイベント更新レートよりも高いレートでRAMを通過するスクラバーを使用して、シングルイベントアップセット(実際に3分の2が間違って投票する)をクリーンアップします。
次に、総線量があります。時間がたつにつれて、材料は放射能が強すぎて機能しなくなるため、車両の寿命を超えるのに十分な材料を使用します。通常、表面上で心配することはありません。(およびラッチアップ)3つ/複数のロジックセットを並行して使用することは、従来のrad-hard techを使用する必要がないようにするための方法であり、それがうまく機能していることがわかります。
宇宙用のものを作る方法を知っていた人々は、大部分が引退したか、引っ越したので、私たちは今、宇宙ゴミを作る多くのプログラムを持っています。あるいは、宇宙を地球上の製品のように扱うことで、全員を仕事に入れて再突入と燃焼を制御しようとする代わりに、あらゆる星座から一定量の宇宙ゴミを期待しています。
表面に動揺が見られます。購入したメモリスティック(DRAM)にはFIT、Failures In Timeがあり、RAMを搭載したチップ(すべてのプロセッサ、他の多くのプロセッサ)にもFIT仕様があります(RAM(SRAM)ブロック用)。RAMはより高密度で、より小さなトランジスタを使用するため、内部で作成された、または外部で動揺しやすくなります。ほとんどの場合、データやビデオの視聴などに使用するメモリが書き込まれ、読み戻され、動揺するのに十分な長さになる前に再び使用されることはないため、気づかないか気にしません。プログラムやカーネルを保持しているメモリなど、一部のメモリはより危険です。しかし、私たちはコンピューターを再起動するか、電話をリセット/再起動するという考えに長い間慣れてきました(定期的にバッテリーを取り外す必要がある電話/ブランドもあります)。これらの混乱または悪いソフトウェアまたは組み合わせでしたか?
個々の製品のFIT数はその製品の寿命を超える場合がありますが、大規模なサーバーファームを使用すると、すべてのRAMまたはチップなどを考慮に入れ、MTBFは数年またはそれ以降の注文から数日または数時間、農場。そして、あなたはそれらのうちあなたができることをカバーするためにECCを持っています。そして、フェイルオーバーを使用して処理負荷を分散し、タスクの完了に失敗したマシンまたはソフトウェアをカバーします。
ソリッドステートストレージへの要望と、回転するメディアからの移動により、これに関連する問題が発生しました。SSD(およびその他の不揮発性ストレージ)に使用されるストレージは、より高速で安価になりますが、それがなければデータが失われるため、私たちが望むよりもはるかに揮発性が高く、EDACに依存しています。彼らはたくさんの余分なビットを投げ入れて全体をECCし、ストレージの速度、コスト、寿命のバランスを取るための計算を行います。後戻りすることはありません。人々は、どこでも小さなパッケージに収まり、製品の価格を左右しない不揮発性ストレージをもっと求めています。
通常の回路に関する限り、デジタル回路にトランジスタを使用する最初の日から現在まで、トランジスタの線形部分を通過してスイッチとして使用します。 。壁のライトスイッチのように、半分以上はめ込むと、バネが残りを支え、そこに保持します。これがデジタルを使用し、線形領域に住もうとしない理由です。彼らは早くから試してみましたが、失敗しました。彼らは較正されたままでいることはできませんでした。
したがって、トランジスタをレールに叩き込むだけで、次のクロックサイクルまでに信号の両側が安定します。多大な苦労があり、現在のツールは、チップ設計の分析を行う際に、設計によってタイミングに余裕があることを確認するために、以前よりもはるかに優れています。次に、各ウェーハ上の各ダイをテストし(パッケージング後、またはパッケージング後)、各チップが良好であることを確認します。
チップ技術は、実験に基づく統計に大きく依存しています。CPUをオーバークロックすると、そのマージンを押し上げ、公表されているクロックレート、温度などの範囲内に留まり、問題が発生する可能性が大幅に低くなります。3 GHz xyzプロセッサは、4 GHzで障害が発生したが3 GHzで合格した4 GHzチップです。部品は基本的に生産ラインからスピードグレードされます。
次に、チップまたはボード間に接続があり、それらも問題の影響を受けます。また、これらのインターフェイスのエラーを軽減するために、標準やボード設計などを作成するために多くの時間と労力が費やされます。 USB、キーボード、マウス、HDMI、SATAなど。ボード上のすべてのトレースと同様。ボードの内外でクロストークの問題があります。繰り返しますが、最初から問題を回避するための経験と同様にそれらを使用する場合、多くのツールが利用可能ですが、1と0が完全にエンゲージされていないかもしれない別の方法です。
技術も、スペースも完璧ではありません。十分に良いだけで、製品の十分な割合が、製品の予想寿命を十分にカバーする必要があります。スマートフォンの何パーセントかは、少なくとも2年は必要です。それだけです。古いファウンドリやテクノロジーには、より多くの実験データがあり、より信頼性の高い製品を生産できますが、速度が遅く、新しいデザインではない可能性があります。最先端はまさにそれであり、誰にとっても賭けです。
あなたの特定の質問に、信号の両端のトランジスタは、線形領域をすばやく押し出され、レールの1つに傾きます。パスの最後のクロックがラッチする前に安定することを決定するために、すべての組み合わせパスで分析が行われるため、本当に0または1になります。分析は実験に基づいています。製品ラインの最初のチップは設計の境界を越えてプッシュされ、シュムープロットが作成されて設計にマージンがあるかどうかが判断されます。プロセスのバリエーションが作成され、および/または低速および高速チップを表す個々の候補が見つかります。それは複雑なプロセスであり、いくつかはより多くの材料を持ち、いくつかはより少なく、より速く実行されますが、より多くのエネルギーを使用するか、より遅く実行されます。
それらもマージンにプッシュします。そして、基本的には、デザインが生産に入るのは大丈夫だという温かくぼんやりした感じを得る。JTAG /バウンダリスキャンを使用して、ラッチされた各状態の間でチップをランダムパターンで実行し、デザインに対して組み合わせパスがすべて安定していることを確認します。また、懸念がある場合は、いくつかの直接的な機能テストも発生する可能性があります。最初のシリコンのさらなるテストと、おそらく製品が良好であることを確認するためのランダムテスト。障害が発生した場合は、生産ラインでのより機能的なテストに戻る可能性があります。統計/パーセンテージに大きく依存しています。1/1000000の悪い人は大丈夫かもしれませんし、1/1000でも何でも構いません。それは、あなたがそのチップを何個生産するかによって異なります。
脆弱性は、ここで説明したとおりであり、他の脆弱性も同様です。まず、チップ自体、設計とプロセスの良さ、購入した製品の特定のチップの最も弱い経路がマージンにどれだけ近いかです。エッジに近すぎると、温度変化などによりタイミングの問題が発生し、ビットが1または0に落ち着かないデータをラッチします。次に、単一イベントの混乱があります。そして、ノイズがあります。再び言及したもの...