現代のプロセッサは、論理ユニットに冗長性を持たせて製造上の障害を補償していますか?


10

現代のプロセッサは数十億のトランジスタで構成されており、新しい製造技術では少なくとも最初の数か月は歩留まりに問題が発生することがよくありますが、数年後でも時々不良チップが発生するでしょう。

大きなブロック(たとえば、キャッシュ)では、その一部を無効にする可能性があり、それによって使用可能なメモリの量が減少することを知っています(少なくとも、チップを捨てずに低価格で販売できます)。しかし、ロジックユニットについても同様のものはありますか?問題を解決するために複数のALUがあることは承知していますが、これは本番の障害が発生した場合にそのうちの1つを無効にするだけのものですか?それとも、追加のスペアALUがありますか?私にとって、ファブがロジックパーツに欠陥のあるトランジスタがあるすべてのチップを処分するだけだとは信じがたいのですが、完全なALUを無効にすると、達成可能な処理能力が大幅に低下します。


ちょうど私の推測。シリコンウェーハの製造価格は大量にある場合は比較的低く、ケースに収納する前にテストできるため、比較的低い故障率で完全なチップを製造できます。価格の50%以上が純粋なマーケティングです。また、同じファミリ内の多くのプロセッサのバリエーションは同じトポロジで作成され、一部のオフになっている機能/コア/キャッシュのみが異なると思います(書いたとおり)。破損したユニット。しかし、たとえば、同じコアにいくつかの予約済みALUがあるとは思えません。
cyclone125

これの最も有名な例はIntel 486SXで、FPUを無効にしたDXと同じダイでした。しかし、私はこれの現在の状態が何であるかを聞きたいと思います。
pjc50

私はそれを強く疑います。現代のプロセッサの速度で低レベルの冗長性を実現するために必要なロジックと設計時間は、それだけの価値はありません。ブロックレベル(コア、fpu、キャッシュ)の冗長性、または単にブロックを無効にするだけでは、歩留まりを大幅に向上させるのに十分です。また、現在のプロセッサ価格とウェーハサイズでは、5%の歩留まりでも利益を上げることができます。
Edgar Brown、

つまり、ALUが使用できない場合は、コアを無効にするだけです。ええ、可能性があります。ここの誰かが本当に知っていることを望みました。
jusaca

1
はい、コアを無効にします。これは「ビニング」と呼ばれる方法です。
DKNguyen

回答:


3

他の人が言ったように、コア内に冗長なALUロジックを見つけることは困難です。

コアはスループットを最適化するように設計されています。冗長ALUの追加のロジックはパフォーマンスに影響を与え、面積が増えるとコア全体の速度が低下します。テクノロジーが進化するにつれ、シリコンはより小さくなり、コアはより高速になりましたが、基本的には同じ知的財産を使用しています。生産性を向上させるために冗長コアにスペースが利用できるのに、なぜ冗長ALUがあるのですか?

2011年、インテルは16のアクティブと16のスペアを備えた少なくとも32コアの特許を申請しました。特許では、故障したコアの温度が高くなり、予備のコアをスイッチインできるようになると述べています。基本的に、必要に応じて動的にコアを割り当てます。

タスクの必要に応じて、高電力コアと低電力コアを割り当てることができます。または、より高い温度レベルで検出された不良コアを切り替えます。コアをチェッカーボード方式で操作して、熱を減らします。

インテルの特許:メニーコアプロセッサの信頼性の向上


これは実際には非常に理にかなっています。パフォーマンスへの影響については考えていませんでした。1つのコア内の予備のシリコン領域が持つ可能性があるのです。他の回答も示唆しているように、コア全体を無効にすることは進むべき道のようです。
ジュサカ

5

ロジックではありません。

ただし、大きなメモリ(SRAM)がある場合は、「冗長性」のあるメモリを使用するのが一般的です。これらには、領域、多くの場合は行または列の数を置き換えるようにプログラムできる特別なロジックがあります。

テスト中に障害のある領域が検出され、冗長メモリがプログラムされて、障害のある場所が置き換えられます。

ただし、この「置換」は、OTP(One-Time-Programmable)ビットまたはその値を保持するその他のメモリを使用して設定する必要があります。したがって、これらのメモリは、このような「永久メモリ」機能を備えたチップでのみ使用されます。または、このようなプログラミング機能も追加する必要があり、これに伴うすべてのコストがかかります。


これらのOTPビットは、ヒューズや何かを焼くなどのように電子的にプログラムされていると思いますか、それとも大手メーカーはレーザートリミングでダイに直接行かなければなりませんか?
ジュサカ

1
OTPは、(永久その後、ソートEEPROMなどではなく)、電子的にプログラムすることができ、オンチップヒューズいるエンドユーザーは、シリアル番号、イーサネットアドレス、暗号化キーなどのためにそれらを書き込むことができます
Oldfart

4

これは確かに単純なMCUや典型的なシングルコアプロセッサには当てはまりません。予備のブロックを用意するコストはそれだけの価値はありません。これらのプロセッサーは最先端の彫刻プロセスを使用せず、巨大なシリコン領域を必要としないため、歩留まりは十分です。

ただし、これは一部のマルチコアプロセッサで行われ、シリコン領域がかなり大きく、より細かい彫刻プロセスを使用するため、欠陥率が高くなる可能性があります。これらのプロセッサでは、欠陥がある場合、コア全体(ALUをはるかに超える大きなロジックブロック)を無効にできます。その後、プロセッサはローエンドモデルとして販売されます。

出典:https : //skeptics.stackexchange.com/questions/15704/are-low-spec-computer-parts-just-faulty-high-spec-computer-parts


3

私は確かにあなたの質問に確かに答えることはできません。1コア未満のユニットを無効にしても、有効または無効にできる非常に細かい "機能セット"になるため、あまり意味がありません。可能なすべての機能のデカルト積により、無数のCPUモデルが可能になります。あり、多くすでにCPUモデルのは、10〜100倍以上になる間違いない助けをそれらを作ります、!

もう1つの側面は、キャッシュの作成に数十億のトランジスタが(ほとんどの場合)使用され、欠陥のあるトランジスタの場合、製造元はオンダイキャッシュの一部を無効にしてCPUを確実に販売することです(たとえば、AMD ThortonとAMD Bartonを参照)。

しかし、私は信頼できる人から聞いた逸話をあなたに言うことができます。昔、私は好奇心旺盛なオーバークロッカーでした。私の時代には、予算のオーバークロック可能なCPUとしてAMD Athlon Thoroughbredが選ばれていました。

アスロンサラブレッド

カスタム冷却ソリューションをマウントする場合、ヒートシンクをダイに直接押し付けるため、ヒートシンクを取り付ける際には注意が必要でした。不均一な圧力を加えた場合、最初に1つのコーナーで力を加えた場合、ダイがコーナーで容易に割れることで悪名が高かった。

この人はまったく同じことをしていましたが、1つのコーナーのかなりの部分がなくなりましたが、CPUはメモリパフォーマンスが大幅に低下しましたが、奇跡的にうまく機能していました。コーナーにはL2キャッシュのみが含まれていたため、その部分がなくなったため、キャッシングプロトコルは現在、非常に欠陥のあるダイを回避するために何らかの方法で機能していました。それはおそらくその部分のすべてのクエリのキャッシュミスを報告していたため、CPUはL1キャッシュのみ(またはL2の一部のみ)に削減されたため、ほとんどのテストではるかに遅くなりましたが、タイトループで実質的に同じパフォーマンスがありました。

思考の同じ行では、可能性が ALUに欠陥があると何とかそれが仕事を拒否したことをバックシグナリングすることが可能である場合、CPUは、その行うことができる他のALUにバック落下可能。これがCPUメーカーによって行われているかどうかは不明です(そして私は疑っています)が、キャッシュの例(15年前から)は、それが確実に実行可能であることを示しています。


これは確かに非常に印象的であり、システムが障害のあるチップ部品をそれ自体で検出したため、何らかの動的プロセスであるように見えます。質問をするとき、私は生産ラインのテストシステムによる検出をもっと念頭に置いていました。しかし、この話は
非常に
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.