GPUにはいくつの「並列ユニット」がありますか？

GPUが持つ頂点を処理するための並列ユニットの数を教えてください。

このウィキペディアのページでは、GFLOPSとクロック速度を提供しています。たとえば、Radeon 5850 "Broadway PRO"の場合、1000 GFLOPSが得られます。頂点シェーダーの実行が100フロップであると仮定すると、1秒あたり1000e9 / 100 = 10e9の頂点を処理できます。

製造元が公開している並列処理ユニットの数、またはその数を知る方法はありますか？

gpu

— ボボボボ
ソース

カードのモデルによって異なります。この質問の目的は何ですか？

— AttackingHobo 2009

私はAttackingHoboに同意します。すべてのチップの量は異なり、動作も異なるため、コアの数は関係ありません。モデルでは、30コアは60コアのコアよりも強力な場合があります。また、Wikipediaの情報が信頼できない場合は、製造元の各チップ仕様を参照する必要があります（これはおそらく正確です）

— Pablo Ariel

stackoverflow.com/questions/6490572/...

— チロSantilli冠状病毒审查六四事件法轮功

archive.is/ijlYA#selection-285.296-285.499

— Pacerier 2017年

回答:

頂点シェーダーの実行が100フロップであると仮定すると、1秒あたり1000e9 / 100 = 10e9の頂点を処理できます。

いいえ、それは確かにありません。

基本的に、あなたはの実行速度のいずれかの計算を検討すべきである任意のもっぱら容疑者であることを数える「FLOPS」に基づいてコードを。実際、FLOPSを完全に無視するのが一般的に最善です。

「並列ユニット」という用語を定義していません。その定義がなければ、私たちはあなたが何を望んでいるのかを推測することしかできませんでした。

Radeon 5870を取り上げます。浮動小数点ユニットは1600です。つまり、すべてのサイクルで、1600のスカラー浮動小数点演算を一度に実行できます。ただし、各VLIWオペコードは5ウェイベクトル演算レジスタで機能します。したがって、実際のコードの最小単位は1600/5、つまり320です（注：これは大幅な簡略化です）。それは320スレッドです。

ただし、それは実際には機能しません。実行中の実行の個別のパスは320ありません。320の異なるユニットで320の異なるコードを実行することはできません。5ウェイVLIW自体は4ウェイSIMDコアにグループ化されています。各SIMDは、独自の実行パスと独自のソースコードを持つことができます。SIMDコア内の各VLIW は個別のデータを持つことができるため、個別の値を計算します。ただし、SIMDコア内の各VLIWは、そのコア内の他のVLIWとロックステップで同じ命令を実行します。

したがって、実際にはスレッドは320/4、つまり合計80しかありません。しかし、繰り返しますが、それはあなたが話している「並列ユニット」の種類に依存します。技術的には、1600、320、80はすべて正当な答えです。

そして、それは1つの特定のアーキテクチャのためのものです。NVIDIAのフェルミライン（GeForce 4xx以降）は、大きく異なるアーキテクチャを使用しています。ATIのケイマンライン（Radeon 69xx）は、5ウェイVLIWを4ウェイVLIWに変更します。彼らの次のアーキテクチャにもいくつかの重要な違いがあるかもしれません。

探しているものがわからなければ、質問に答える方法はありません。

— ニコル・ボーラス
ソース

すごい。GPUアーキテクチャについてもこの記事を見つけましたが、浮動小数点ユニット数はどこで見つけましたか？それが私が探していたものです。

— bobobobo 2011

@bobobobo：リンク先のWikipediaページにありました。また、そのGPU Gemsの記事は、GeForce 6-7ラインに固有のものです。また、6歳です。

— Nicol Bolas、2011

SIMDを個々の文字で発音するのは興味深いことです。VLIWはその文字以外の何かによって混乱させられますが、私が一緒に働いたほとんどすべての（実際には）システムプログラマーは "sim dee"と言います。

— Andon M. Coleman

@ NicolBolas、Dude、80の同時命令？それでも、CPUから得られる通常の8または16を打ち負かします。

— パセリエ2017年

分からない、並列処理装置ってどういう意味？シェーダーユニット？最近のPPUとGPUは基本的に同じものであるため、ati radeonについて話している場合、PPUはGPUです。

私はあなたが機能単位を意味していると思います、あなたはConfig coreウィキペディアのフィールドを読まなければなりません：

Config Core – The layout of the graphics pipeline, in terms of functional units. Over time the number, type and variety of functional units in the GPU core has changed significantly; before each section in the list there is an explanation as to what functional units are present in each generation of processors.

したがって、radeonの場合、次のようになります。

Unified Shaders (Vertex shader/Geometry shader/Pixel shader) : Texture mapping unit : Render Output unit

これはブロードウェイプロの場合： 800:40:16

つまり、800のシェーダーユニット、40のテクスチャマッピングユニット、16のレンダー出力ユニットがあります。

編集：まあ、いや、並列処理ユニットはあなたの意味にも適用されているようですので、そのように呼ぶのはちょっと混乱していると思います。私はそれらをシェーダーユニットまたはsimdコアと呼びます。

— パブロ・アリエル
ソース

PPUは何ですか？

— パセリエ2017年