簡単に並列化できるアプリケーションがありますが、そのパフォーマンスは大部分がI / Oバウンドです。アプリケーションは、通常2〜5 GBのサイズのファイルに格納されている単一の入力配列を読み取ります(ただし、この数値は将来的に増加する予定です)。典型的な計算では、その配列の各行または列に同じ操作が適用されます。CPUを大量に使用する操作では、約100プロセッサまで非常に優れたスケーリングが得られますが、遅い操作ではI / Oおよび関連する通信(NFSアクセス)が支配的であり、少数のプロセッサしか効率的に使用できません。
そのような状況で効率的でポータブルな(理想的には移植性の高い)オプションは何ですか?並列HDF5は有望なようです。誰かがそれを実際に体験したことがありますか?
MPI-I / Oは検討する価値があるでしょうか?特定のファイルレイアウトで効率的に動作することはできますか、それともすべてを適応させる必要がありますか?