私は、分類器に渡す必要がある14000個のデータポイント(次元)を含む10人(つまり100個のサンプル)に対して1人あたり10個の信号があるシナリオに遭遇しました。このデータの次元数を減らしたいのですが、PCAがそうするようです。ただし、サンプルの数が次元の数よりも大きいPCAの例を見つけることしかできませんでした。SVDを使用してPCを検出するPCAアプリケーションを使用しています。100x14000データセットを渡すと101個のPCが返されるため、ほとんどのディメンションは明らかに無視されます。プログラムは、最初の6台のPCに90%の分散が含まれることを示しています。
これらの101台のPCには本質的にすべての分散が含まれており、残りの次元は無視できるというのは合理的な仮定ですか?
私が読んだ論文の1つは、自分のデータセットと同様の(わずかに低い品質)データセットを使用して、4500の次元を80に減らして元の情報の96%を保持できたと主張しています。使用されたPCA手法の詳細に関する論文の手振り、3100サンプルのみが利用可能であり、PCAを実際に実行するために使用されたサンプルよりも少ないサンプルを信じる理由があります(分類段階からバイアスを取り除くため)。
私は何かを見逃していますか、これは本当にPCAが高次元で低サンプルサイズのデータセットで使用される方法ですか?フィードバックは大歓迎です。