頂点シェーダーにフィードするためのデータをフェッチするとき、GPUは同時に少数の三角形しかキャッシュできないため、多数の小さな呼び出しが必要であり、VRAMからのデータのフェッチは非常に遅い操作であることを考慮する必要があります。したがって、インデックスに半分のバイトを使用すると、GPUはキャッシュの2倍のインデックスをフェッチして三角形をレンダリングできると思います。
4MB記憶域用に少量のメモリを使用できますが、それらから数バイトのみを処理するために複雑な呼び出しを行う必要がある場合は、顕著な方法でパフォーマンスに影響を与える可能性があります。最近のビデオカードは、多くのジオメトリを処理する必要のないゲームでは無関係になるほど強力です。本当に知りたい場合は、両方のインデックスサイズでモデルをレンダリングするベンチマークを行うことができます。
また、メモリアライメントと適切なページングを効果的に制御できない限り、16ビットインデックスを使用すると、実際にはすべての書き込みまたは読み取りで読み込み時間が短縮されます。つまり、必要なメモリだけでなく、それを処理するためにどれだけかかるかということです。フレーム間のある時点でバスを介してGPUに移動する必要がある動的バッファーを使用している場合は、可能であれば16ビットのインデックスを使用する必要があります。さらに小さなジオメトリをレンダリングする場合は、単一の16ビットインデックスバッファーに多数のインデックスをバッチ処理して、それらすべてを1回の呼び出しでGPUにコピーできます。
ここでは、新しいATI GPUがどのように機能するかについての情報を見つけることができます。
ATI Stream Developer Training Resources
(申し訳ありませんが、正確なドキュメントを見つけることができませんでした)NVidiaについてはあまり読みませんでしたが、多かれ少なかれ同様のアプローチで機能すると思います。