PCAのコンポーネントを保持するかどうかを決定しようとしています。固有値の大きさに基づいて、ここやここなどで説明され、比較される膨大な数の基準があります。
ただし、私のアプリケーションでは、small(est)固有値はlarge(st)固有値と比較して小さくなり、大きさに基づく基準はすべてsmall(est)固有値を拒否することを知っています。これは私が望むものではありません。私が興味を持っているのは、ある意味で、小さな固有値の実際の対応する要素を考慮する既知の方法がありますか?それは、すべての教科書で暗示されているように本当に「ちょうど」ノイズか、潜在的な「何か」がありますか興味が残った?それが本当にノイズである場合、固有値の大きさに関係なく、それを削除し、そうでなければそれを保持します。
見つけられないPCAのコンポーネントに対して、何らかの確立されたランダム性または分布テストがありますか?それとも、これがばかげたアイデアになる理由を誰かが知っていますか?
更新
2つのユースケースのコンポーネントのヒストグラム(緑)と通常の近似(青):かつては本当にノイズ、おそらくは「ジャスト」ノイズではない(そう、値は小さいが、おそらくランダムではない)。どちらの場合も最大の特異値は〜160であり、最小、つまりこの特異値は0.0xxです。どのカットオフ方法にも小さすぎます。
私が探しているのは、これを形式化する方法です...