GPUを高温で実行することがカードに悪いことを証明できますか?


11

グラフィックカードを80°Cから90°C(176°Fから194°F)で連続して実行する場合、グラフィックカードにとって実際に悪いですか?すなわち、それはカードの寿命を縮めますか?これは証明できますか?それとも単なる仮定ですか?

GPUのシャットオフが通常90°C(194°F)であることを理解しています。


「安全遮断」は、温度が測定される場所と、回路が設計されたプロセスと最大温度に大きく依存します。しばらく前に、特定の世代のIntel CPUの最高定格温度は110°Cでしたが、特定のハードウェア愛好家はチップが破壊されると考えていたので心配していました。ネタバレ:彼らはしませんでした。
ジョレンベーズ

1
この質問は、この他の質問ic-product-lifetime-as-function-of-junction-temperatureに大きく関係していると思います。その質問の一番下の行は、室温を15°C上回るごとにICの平均寿命が半分になるということです。したがって、グラフィックカードを80°Cと比較して90°Cで実行すると、その寿命が約37%短くなります(したがって、80°Cで平均寿命が8年の場合、代わりに90°Cで約5年です)
ハリースベンソン

1
Arhenniusの法則はMTBF / 10°C上昇が50%近くになりますが、誘電体について考慮する必要がある他の要因があります。より良い。
トニースチュワートサニースキーガイEE75

回答:


21

故障メカニズムを研究し、それらが熱によってどのように影響を受けるかを見てみましょう。温度が上がると故障メカニズムが速くなるからといって、GPUが必ずしも速く故障するわけではないことを覚えておくことが非常に重要です!室温で100年続くサブコンポーネントが熱い場合は20年しか続かないが、別のサブコンポーネントは最初から1年しか続かない(ただし、熱の影響を受けない)場合、製品の寿命はほとんど変わりません。温度。

これは私の専門知識ではないので、Simeonが話しているサイクリングの問題は無視します。

ボードレベルでは、頭で「壊れる」主なコンポーネントの1つ、電解コンデンサを考えることができます。これらのコンデンサは乾ききっており、熱が加えられるとより速く乾きます。(タンタルコンデンサも寿命が短くなる傾向がありますが、これは熱によってどのように変化するかわかりません)。

しかし、シリコンはどうですか?

ここで、私が理解しているように、失敗を引き起こす可能性のあるものがいくつかあります。ここでの主なものの1つはエレクトロマイグレーションです。回路では、金属の小片を通過する電子は実際に原子の周りを物理的に動きます。これは非常に悪くなる可能性があるため、導体にギャップが生じ、故障につながる可能性があります。

この画像は良い説明です(Tatiana Kozlova、Henny W. Zandbergenから; Niナノブリッジのエレクトロマイグレーションのその場TEM観察):

ここに画像の説明を入力してください

このプロセスは温度とともに指数関数的に増加するため、実際、温度が高くエレクトロマイグレーションが障害の主な原因である場合、チップの寿命は短くなります。

別のメカニズムは酸化物破壊で、回路内でトランジスタがゲートパンチスルーを被ります。これも温度に依存します。ただし、ここでは電圧の影響がはるかに大きくなります。

ドーパントのドリフトまたはホットキャリア注入のいずれかによるVTシフトもあります。ドーパントのドリフトは温度とともに増加します(ただし、特にデジタル回路では、これは非常に遅いプロセスであるため、問題になることはほとんどありません)。ホットキャリア注入の温度依存性についてはわかりませんが、ここでも電圧がはるかに重要な要素だと思います。

しかし、それから重要な質問があります:これはどれくらい寿命を縮めますか?これを知っているので、グラフィックカードを常に涼しく保つ必要がありますか?設計段階でエラーが発生しない限り、私の推測はノーです。回路は、これらの最悪の状況を念頭に置いて設計されており、メーカーの定格寿命の限界に達した場合に生き残るように設計されています。回路をオーバークロックする人々の場合:回路を安定に保つために頻繁に使用する電圧の増加(回路を少し高速化できるため)は、温度自体よりもはるかに有害です。さらに、その電圧の増加は電流の増加につながり、エレクトロマイグレーションの問題を大幅にスピードアップします。


2
それらは素晴らしいイメージです。エレクトロマイグレーションは物理的にどのようなものになるのかといつも思っていました。
カーソルキー

9

はい、熱が電気部品を劣化させることが証明ています。金属は加熱すると膨張し、はんだ(電気回路接続に使用)は金属合金であるため、加熱すると膨張します。絶えず加熱と冷却を行うと、接合部が絶えず膨張および収縮し、ひび割れが生じ、最終的に接合部が破損する可能性があります。

                                                      故障率と温度のグラフ

上のグラフは、Arrhenius'Lawが熱の増加と半導体故障の相関関係をどのように示しているかを示しています。このペーパーでは、電子部品に対する熱の影響について詳しく説明します。それは、電子レベルでの事柄をより多く扱っています。これは、私の知識の範囲外です。


1
あなたは膨張と収縮のおかげでサイクリングが悪いと信じることができますが、高負荷で、したがって常に高温で実行することに問題がありますか?
コリン

私はIC設計者なので、ボードレベルの故障モードについてはほとんど知識がありませんが、(趣味として)物事を修理するすべての時間において、拡張サイクルによる故障にまだ出会っていないので、どれほど重要かを疑問視する必要があります他のメカニズムと比較されます。
ジョレンベーズ

1
@Colin「常に高負荷」というようなことはありません。たとえば、GPUでビットコインをマイニングする場合を除き、他よりも負荷が大きい秒があります。冷却はGPUでかなり強力でなければならないため、これはすでに前述の問題につながります。参照:XBoxリングオブデス。
マーカスミュラー

@MarcusMüller絶対にあります。そして、負荷が絶対的に一定でないことは問題ではありません。サイクリングには、デルタ温度が重要です。設計温度内で95〜100%の負荷(つまり計算)で99%の時間を実行するカードは、同じカードが0%〜100%の間で乱暴に50%振動するよりも、仮想のサイクリングダメージの影響をはるかに受けません。 if(つまりゲーム)。
ダンM.

6

半導体の接合部温度の上昇とそのMTBF(平均故障間隔)の低下との関係はよく理解されています。

マイクロンのこのテクニカルノートでは、これについて説明しています。

実際には、接合部温度が〜125˚Cに近づいてそれを超えると、故障率は指数関数的に増加するため、その温度よりも十分に低い温度で動作している場合、小さな増分はそれほど重要ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.