私は現在t-SNE視覚化手法について読んでいますが、主成分分析(PCA)を使用して高次元データを視覚化することの欠点の1つは、ポイント間の大きなペアワイズ距離しか保持されないことです。高次元空間で遠く離れている意味の点も低次元部分空間では遠く離れて表示されますが、他のすべてのペアワイズ距離が台無しになることを除いて。
なぜ誰かがそれを理解するのを手伝ってくれませんか?
私は現在t-SNE視覚化手法について読んでいますが、主成分分析(PCA)を使用して高次元データを視覚化することの欠点の1つは、ポイント間の大きなペアワイズ距離しか保持されないことです。高次元空間で遠く離れている意味の点も低次元部分空間では遠く離れて表示されますが、他のすべてのペアワイズ距離が台無しになることを除いて。
なぜ誰かがそれを理解するのを手伝ってくれませんか?
回答:
次のデータセットを検討してください。
PC1軸は、投影の分散を最大化しています。したがって、この場合は、左下隅から右上隅に向かって斜めに表示されます。
元のデータセットでの最大のペアワイズ距離は、これらの2つの離れた点の間です。PC1にほぼ正確に保存されていることに注意してください。小さいながらも実質的なペアワイズ距離は、各外れているポイントと他のすべてのポイントの間です。それらも適切に保存されています。しかし、中央のクラスター内のポイント間のさらに小さいペアワイズ距離を見ると、それらのいくつかが強く歪んでいることがわかります。
これは正しい直感を与えると思います。PCAは、最大の分散を持つ低次元の部分空間を見つけます。最大分散とは、部分空間が、中心から遠く離れた点に近づくように整列する傾向があることを意味します。したがって、ペアワイズの最大距離は適切に維持され、小さい距離はそれほど維持されません。
ただし、実際には必ずしもそうではないため、これを正式な議論に変えることはできません。主成分分析と多次元スケーリングの違いは何ですか?で私の答えを見てください。上記の図からポイントを取得し、ペアワイズ距離の行列を作成し、距離を可能な限り近くに保つ1D投影を尋ねると、答えはMDSソリューションによって与えられ、 PC1。あなたが考える場合は、ペアごとの行列がスカラーの製品を中心に、それはあります10 × 10 10 × 10実際、PC1によって正確に保存されるのが最善です(証明については、私の回答を参照してください)。また、ペアワイズ距離が大きいことは、通常、スカラー積も大きいことを意味すると主張できます。実際、MDSアルゴリズムの1つ(クラシック/ Torgerson MDS)は、この仮定を明示的に行います。
要約すると: