主成分分析でデータのノイズを除去


11

主成分分析(PCA)はデータセットのノイズを除去しますか?PCAがデータセットのノイズを除去しない場合、PCAは実際にデータセットに対して何をしますか?この問題に関して誰かが私を助けてくれませんか。


1
いいえ、それは「ノイズ」を排除しません(ノイズの多いデータがノイズの多いままになるという意味で)。PCAは単なるデータの変換です。各PCAコンポーネントは、予測子の線形結合を表します。また、PCAは固有値で並べ替えることができます。広い意味では、固有値が大きいほど、分散がカバーされます。したがって、無損失の変換とは、PCが次元と同じ数の場合です。ここで、大きなEvを備えた一部のPCのみを検討する場合、データの分散をほとんど追加しないコンポーネントを無視します(ただし、これは「ノイズ」ではありません)。
Drey

2
@Dreyがすでに述べたように、低分散成分はノイズである必要はありません。また、高分散成分としてノイズを持つ可能性もあります。
Richard Hardy

ありがとうございました。実際、私は@Dreyが彼のコメントで言及したことを行いました。これは、以前はデータセット内のノイズであると思っていた小さなEvを備えたPCを排除します。したがって、Evが小さいPCを引き続き排除し、それを回帰モデルの入力として使用したい場合は、回帰モデルのパフォーマンスを向上させます。PCAによってデータの解釈が容易になり、予測がより正確になったと言えますか?
bbadyalina 2016年

@Richard Hardy PCAがデータからのノイズを除去しない場合、線形変換はどのようにデータセットを改善しますか?従来の時系列モデルと比較して予測のパフォーマンスを向上させる時系列モデルとPCAハイブリッドを使用する多くの研究者がいるため、これについてはどういうわけか混乱します。お返事ありがとうございます。
bbadyalina 2016年

データは「簡単」(機能の線形結合)でも、解釈(回帰モデルでの係数の解釈)も簡単ではありません。ただし、予測はより正確になる場合があります。さらに、モデルは一般化する可能性があります。
Drey、

回答:


15

主成分分析(PCA)は、a)ノイズ除去およびb)次元の削減に使用されます。

ノイズを除去するわけではありませんが、ノイズを減らすことができます。

基本的に、直交線形変換を使用して、すべてのデータのk次元への投影を見つけますが、これらのk次元は最も分散が大きい次元です。(データセットの)共分散行列の固有ベクトルはターゲットの次元であり、固有値に従ってランク付けできます。高い固有値は、関連する固有ベクトルの次元によって説明される高い分散を意味します。

米国郵政公社が封筒から手書きの数字をスキャンして取得したuspsデータセットを見てみましょう。

最初に、共分散行列の固有ベクトルと固有値を計算し、すべての固有値を降順にプロットします。固有値が他の固有値よりもはるかに高いため、主成分と名付けられる可能性のあるいくつかの固有値があることがわかります。

上:降順でソートされたuspsデータセットの共分散行列のすべての固有値-下:top25固有値

各固有ベクトルは、元の次元の線形結合です。したがって、固有ベクトル(この場合)は、プロット可能なイメージ自体です。

5つの最高固有値がプロットされた固有ベクトル

b)次元削減では、上位5つの固有ベクトルを使用して、すべてのデータ(元は16 * 16ピクセルのイメージ)を、分散の損失を最小限に抑えて5次元空間に投影できます。

(ここに注意:場合によっては、非線形次元削減(LLEなど)がPCAよりも優れていることがあります。例については、ウィキペディアを参照してください)

最後に、PCAをノイズ除去に使用できます。したがって、パフォーマンスを比較できるように、3つのレベル(低、高、外れ値)で元のデータセットにノイズを追加できます。このケースでは、平均がゼロのガウスノイズと元の分散の倍数としての分散(係数1(低)、係数2(高)、係数20(外れ値))を使用しました。考えられる結果は次のようになります。しかし、いずれの場合も、良好な結果を見つけるためにパラメーターkを調整する必要があります。 ここに画像の説明を入力してください

最後に、別の視点は、ノイズの多いデータの固有値を元のデータと比較することです(この回答の最初の図と比較してください)。ノイズがすべての固有値に影響することがわかります。したがって、ノイズ除去に上位25の固有値のみを使用すると、ノイズの影響が低減されます。

ここに画像の説明を入力してください


これらは単なる数値であり、それらのSNRを見つけようとしました
Boris

いいえ、これらの数値を使用して、サンプルデータセットのノイズ低減とPCAの関係を示しました。新しい視点を追加する答えを書いてください。
Nikolas Rieble

こんにちはニコラス、あなたの答えは素晴らしいです、+ 1。数学スタックの交換について質問を投稿したばかりですが、答えに役立つかどうか疑問に思っていましたか?主に、元のデータセットの共分散行列の固有ベクトルが最も高い分散の方向であることが判明する理由について混乱しているため、それらに射影したいと思います...ここでは、質問:数学をリンクしています。 stackexchange.com/questions/3213775/…ありがとう!
Zlatan943
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.