GPUが持つ頂点を処理するための並列ユニットの数を教えてください。
このウィキペディアのページでは、GFLOPSとクロック速度を提供しています。たとえば、Radeon 5850 "Broadway PRO"の場合、1000 GFLOPSが得られます。頂点シェーダーの実行が100フロップであると仮定すると、1秒あたり1000e9 / 100 = 10e9の頂点を処理できます。
製造元が公開している並列処理ユニットの数、またはその数を知る方法はありますか?
GPUが持つ頂点を処理するための並列ユニットの数を教えてください。
このウィキペディアのページでは、GFLOPSとクロック速度を提供しています。たとえば、Radeon 5850 "Broadway PRO"の場合、1000 GFLOPSが得られます。頂点シェーダーの実行が100フロップであると仮定すると、1秒あたり1000e9 / 100 = 10e9の頂点を処理できます。
製造元が公開している並列処理ユニットの数、またはその数を知る方法はありますか?
回答:
頂点シェーダーの実行が100フロップであると仮定すると、1秒あたり1000e9 / 100 = 10e9の頂点を処理できます。
いいえ、それは確かにありません。
基本的に、あなたはの実行速度のいずれかの計算を検討すべきである任意のもっぱら容疑者であることを数える「FLOPS」に基づいてコードを。実際、FLOPSを完全に無視するのが一般的に最善です。
「並列ユニット」という用語を定義していません。その定義がなければ、私たちはあなたが何を望んでいるのかを推測することしかできませんでした。
Radeon 5870を取り上げます。浮動小数点ユニットは1600です。つまり、すべてのサイクルで、1600のスカラー浮動小数点演算を一度に実行できます。ただし、各VLIWオペコードは5ウェイベクトル演算レジスタで機能します。したがって、実際のコードの最小単位は1600/5、つまり320です(注:これは大幅な簡略化です)。それは320スレッドです。
ただし、それは実際には機能しません。実行中の実行の個別のパスは320ありません。320の異なるユニットで320の異なるコードを実行することはできません。5ウェイVLIW自体は4ウェイSIMDコアにグループ化されています。各SIMDは、独自の実行パスと独自のソースコードを持つことができます。SIMDコア内の各VLIW は個別のデータを持つことができるため、個別の値を計算します。ただし、SIMDコア内の各VLIWは、そのコア内の他のVLIWとロックステップで同じ命令を実行します。
したがって、実際にはスレッドは320/4、つまり合計80しかありません。しかし、繰り返しますが、それはあなたが話している「並列ユニット」の種類に依存します。技術的には、1600、320、80はすべて正当な答えです。
そして、それは1つの特定のアーキテクチャのためのものです。NVIDIAのフェルミライン(GeForce 4xx以降)は、大きく異なるアーキテクチャを使用しています。ATIのケイマンライン(Radeon 69xx)は、5ウェイVLIWを4ウェイVLIWに変更します。彼らの次のアーキテクチャにもいくつかの重要な違いがあるかもしれません。
探しているものがわからなければ、質問に答える方法はありません。
分からない、並列処理装置ってどういう意味?シェーダーユニット?最近のPPUとGPUは基本的に同じものであるため、ati radeonについて話している場合、PPUはGPUです。
私はあなたが機能単位を意味していると思います、あなたはConfig core
ウィキペディアのフィールドを読まなければなりません:
Config Core – The layout of the graphics pipeline, in terms of functional units. Over time the number, type and variety of functional units in the GPU core has changed significantly; before each section in the list there is an explanation as to what functional units are present in each generation of processors.
したがって、radeonの場合、次のようになります。
Unified Shaders (Vertex shader/Geometry shader/Pixel shader) : Texture mapping unit : Render Output unit
これはブロードウェイプロの場合: 800:40:16
つまり、800のシェーダーユニット、40のテクスチャマッピングユニット、16のレンダー出力ユニットがあります。
編集:まあ、いや、並列処理ユニットはあなたの意味にも適用されているようですので、そのように呼ぶのはちょっと混乱していると思います。私はそれらをシェーダーユニットまたはsimdコアと呼びます。