「中規模データ」プロジェクトと呼ばれることが多いものに取り組んで、4〜32コアのどこでも単一のシステムでコードを並列化できました(主にPythonでのモデリングと予測)。現在、EC2上のクラスターへのスケールアップを検討しており(おそらくStarCluster / IPythonを使用していますが、他の提案も受け入れています)、インスタンス上のクラスターとインスタンス上のコアに分散する作業を調整する方法に困惑しています。
インスタンス間および各インスタンスのコア間で並列化することは実際的ですか?もしそうなら、誰もがコアの少ないインスタンス対コアの多いインスタンスをいくつか実行することの長所と短所を簡単に説明できますか?インスタンスごとのコアに対するインスタンスの適切な比率を選択するための経験則はありますか?
帯域幅とRAMは私のプロジェクトでは些細な問題ではありませんが、それらがボトルネックになっていて再調整するのは簡単です。繰り返しテストすることなく、コアの適切な組み合わせをインスタンスにベンチマークすることは非常に難しく、単一のテストをすべての状況に適用するにはプロジェクトがあまりにも多様です。事前に感謝します。これを適切にグーグルで検索できなかった場合は、他の場所で正しい答えを教えてください。