PCAを行う際に削減する次元数は?


12

PCAにKを選択する方法は?Kは、投影する次元の数です。唯一の要件は、多くの情報を失わないことです。データに依存することは理解していますが、Kを選択する際に考慮すべき特性についての簡単な一般的な概要を探しています。


許容可能なデータ損失、および問題のステートメントにも依存します!
Dawny33

以下の2つの答えに同意します。ただし、情報損失を定量化する簡単な方法、つまり共分散行列のSVDの対角線を使用する方法があることを知っていますか?
yuqian

回答:


13

PCAアルゴリズムを実行した後、主成分を取得し、それらが保持する情報量でソートします。セット全体を保持する場合、情報は失われません。それらを1つずつ削除して元のスペースに投影し直すと、情報損失を計算できます。削除された主成分の数に対してこの情報損失をプロットし、それが意味のある「肘」を作るかどうかを確認できます。ただし、これの多くはユースケースに依存します。


(+1)ええ、
それと同じくらい

3

私は通常、K値が保持する情報の割合をチェックします。8つのフィールドのうち、2つが情報の90%を保持しているとします。その場合、他の6つまたは5つのフィールドを含めることには意味がありません。768の入力のうち、mnistデータを知っている場合、250しか使用しなかったため、精度が83から96%に上がりました。事実は、より多くの次元がより多くの問題をもたらすということです。だからそれらを切断します。私は通常、情報の90%しか保持していないKのみを使用します。


こんにちは.. x%の情報を使用したいが、これを行う方法がわからないという同様の問題がありますか?これを行うためにIPCAを使用するつもりです。n_components= Noneのままにしておくことができますが、データのx%を含む機能をどのように決定するのですか?
アーセナルファナティック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.