ランダムマトリックス理論の洞察を使用して、因子を形成するために使用する共分散/相関行列のPCAから主成分の数を決定することに慣れています。
最初のPCに関連付けられている固有値が大きい場合、それは残りの固有値が小さいことを意味します(固有値の合計は相関行列のトレースと等しくなければならないため)。最初のPCが十分に大きい場合、これらの固有値はすべてMarcenko-Pastur分布の下限を下回る可能性があります。これは、偶然のためではなく、最初の固有値が非常に大きいために低いことを意味します。ただし、重要な情報が含まれているという意味ではありません。むしろ、「最初のPCがいくらか大きいとすると、残りの固有値の分布は、ランダムデータが原因である場合、どのように見えるでしょうか?」という質問をするのが理にかなっています。
この問題に対処する研究はありますか?1つまたは複数の固有値を知ることを条件としてマルセンコパストル分布を得ることが可能である場合、因子を有意な情報に反映するかどうかを決定するために反復的に進めることが可能です。