選択にトレーニングセットではなく検証セットを使用することに重点を置いている k良い習慣であり、従うべきです。しかし、私たちはさらに良いことができます!
パラメータ k に PCA一般的なハイパーパラメータよりも特別です。なぜなら、解決策はPCA (k ) にすでに存在します PCA (K)、 ために K> k、最初です k 固有ベクトル(に対応 k 最大の固有値) PCA (K)。したがって、実行する代わりにPCA (1 )、 PCA (4 )、...、 PCA (K) 個別にトレーニングデータを使用します。これは、一般的にハイパーパラメータの場合と同様に、 PCA (K) すべての人に解決策を K ∈ { 1 、。。、K}。
その結果、プロセスは次のようになります。
- 走る PCA 許容できる最大の K トレーニングセットで
- プロット、または準備(k、分散)検証セット、
- を選択 k これにより、許容可能な最小の分散(90%や99%など)が得られます。
また、N分割交差検証は次のようになります。
- 走る PCA 許容できる最大の K Nトレーニングフォールドで
- プロット、または準備(k、ホールドされたフォールドのN分散の平均)
- を選択 k これにより、許容可能な最小平均分散、たとえば90%または99%が得られます。
また、「なぜ説明された最大分散に基づいて主成分を選択するのですか?」と尋ねる関連投稿があります。