主成分分析(PCA)はデータセットのノイズを除去しますか?PCAがデータセットのノイズを除去しない場合、PCAは実際にデータセットに対して何をしますか?この問題に関して誰かが私を助けてくれませんか。
主成分分析(PCA)はデータセットのノイズを除去しますか?PCAがデータセットのノイズを除去しない場合、PCAは実際にデータセットに対して何をしますか?この問題に関して誰かが私を助けてくれませんか。
回答:
主成分分析(PCA)は、a)ノイズ除去およびb)次元の削減に使用されます。
ノイズを除去するわけではありませんが、ノイズを減らすことができます。
基本的に、直交線形変換を使用して、すべてのデータのk次元への投影を見つけますが、これらのk次元は最も分散が大きい次元です。(データセットの)共分散行列の固有ベクトルはターゲットの次元であり、固有値に従ってランク付けできます。高い固有値は、関連する固有ベクトルの次元によって説明される高い分散を意味します。
米国郵政公社が封筒から手書きの数字をスキャンして取得したuspsデータセットを見てみましょう。
最初に、共分散行列の固有ベクトルと固有値を計算し、すべての固有値を降順にプロットします。固有値が他の固有値よりもはるかに高いため、主成分と名付けられる可能性のあるいくつかの固有値があることがわかります。
各固有ベクトルは、元の次元の線形結合です。したがって、固有ベクトル(この場合)は、プロット可能なイメージ自体です。
b)次元削減では、上位5つの固有ベクトルを使用して、すべてのデータ(元は16 * 16ピクセルのイメージ)を、分散の損失を最小限に抑えて5次元空間に投影できます。
(ここに注意:場合によっては、非線形次元削減(LLEなど)がPCAよりも優れていることがあります。例については、ウィキペディアを参照してください)
最後に、PCAをノイズ除去に使用できます。したがって、パフォーマンスを比較できるように、3つのレベル(低、高、外れ値)で元のデータセットにノイズを追加できます。このケースでは、平均がゼロのガウスノイズと元の分散の倍数としての分散(係数1(低)、係数2(高)、係数20(外れ値))を使用しました。考えられる結果は次のようになります。しかし、いずれの場合も、良好な結果を見つけるためにパラメーターkを調整する必要があります。
最後に、別の視点は、ノイズの多いデータの固有値を元のデータと比較することです(この回答の最初の図と比較してください)。ノイズがすべての固有値に影響することがわかります。したがって、ノイズ除去に上位25の固有値のみを使用すると、ノイズの影響が低減されます。