PCAが大きなペアワイズ距離のみを保持することは何を意味しますか?


10

私は現在t-SNE視覚化手法について読んでいますが、主成分分析(PCA)を使用して高次元データを視覚化することの欠点の1つは、ポイント間の大きなペアワイズ距離しか保持されないことです。高次元空間で遠く離れている意味の点も低次元部分空間では遠く離れて表示されますが、他のすべてのペアワイズ距離が台無しになることを除いて。

なぜ誰かがそれを理解するのを手伝ってくれませんか?


PCAは、ユークリッド距離とマハラノビス距離に密接に関連しています。これらの距離は、高次元では近視であり、短い距離を見ることができません。
Aksakal、2015年

また、最も単純なメトリックMDSと見なされるPCAは、合計された二乗ユークリッド距離の再構築に関するものであることに注意してください。距離が短いと、正確で精度が低下します。
ttnphns 2015年

回答:


8

次のデータセットを検討してください。

PCAデータセット

PC1軸は、投影の分散を最大化しています。したがって、この場合は、左下隅から右上隅に向かって斜めに表示されます。

ペアワイズ距離が長いPCA

元のデータセットでの最大のペアワイズ距離は、これらの2つの離れた点の間です。PC1にほぼ正確に保存されていることに注意してください。小さいながらも実質的なペアワイズ距離は、各外れているポイントと他のすべてのポイントの間です。それらも適切に保存されています。しかし、中央のクラスター内のポイント間のさらに小さいペアワイズ距離を見ると、それらのいくつかが強く歪んでいることがわかります。

これは正しい直感を与えると思います。PCAは、最大の分散を持つ低次元の部分空間を見つけます。最大分散とは、部分空間が、中心から遠く離れた点に近づくように整列する傾向があることを意味します。したがって、ペアワイズの最大距離は適切に維持され、小さい距離はそれほど維持されません。

ただし、実際には必ずしもそうではないため、これを正式な議論に変えることはできません。主成分分析と多次元スケーリングの違い何ですか?で私の答えを見てください上記の図からポイントを取得し、ペアワイズ距離の行列を作成し、距離を可能な限り近くに保つ1D投影を尋ねると、答えはMDSソリューションによって与えられ、 PC1。あなたが考える場合は、ペアごとの行列がスカラーの製品を中心に、それはあります10 × 10 10 × 101010×1010×10実際、PC1によって正確に保存されるのが最善です(証明については、私の回答を参照してください)。また、ペアワイズ距離が大きいことは、通常、スカラー積も大きいことを意味すると主張できます。実際、MDSアルゴリズムの1つ(クラシック/ Torgerson MDS)は、この仮定を明示的に行います。

要約すると:

  1. PCAは、元のスカラー積と再構築されたスカラー積の差の2乗の合計が最小になるという意味で、ペアワイズスカラー積の行列を保持することを目的としています。
  2. これは、絶対値が最大のスカラー積を保持し、絶対値が小さいものは二乗誤差の合計に追加する量が少なくなるため、気にしないことを意味します。
  3. したがって、PCAは小さいスカラー製品よりも大きいスカラー製品をよりよく保持します。
  4. ペアワイズ距離は、スカラー積に類似している場合にのみ保持されますが、常にそうであるとは限りません。その場合、ペアワイズ距離が大きい方が、小さい方よりも保持されます。

これは正しいビジュアルだとは思いません。次元の増加に伴って事態が悪化する様子は示されていない
Aksakal

2
@Aksakal、あなたの意見を理解しているとは思いません。あなたの視点で別の回答を投稿することを検討してください。小さいペアワイズ距離よりも大きく保存することの効果は2Dにすでに存在していると思います。何が起こっているのかを理解するために高次元について考える必要はありません。したがって、私は単純な2Dの例に焦点を当てました。
amoeba氏は

あなたが描いたものはどの方法にも当てはまります。私はいくつかのポイントを非常に遠くに置いて、それらが他のポイントを上回ると主張することができます。ユークリッド距離の問題は、次元の増加に伴ってダイナミックレンジが縮小することです
Aksakal

+1、しかし、私はあなたがやったのとは少し違うように、アクセントをシフトします(主にポイント4)。問題は、これらが距離であり、それらがスカラー積(「二重中心」行列)であることではありません。結局のところ、対角線が与えられた場合、それらは同一の情報を保持します。むしろ、問題はPCA対因子分析のオッズに正確に類似しています。TorgersonのPCoAは、PCAとして、scの再構築を最大化することを目指します。本番。主に対角線を介した行列。非対角線のエントリがどのようにフィットするかを具体的に制御しません。
ttnphns 2015年

(続き)言及された対角線のトレースは全体的な変動性であり、個々の距離を残して、すべての二乗されたペアワイズ距離の合計に直接関連しています。これは、PCAで再構成されたデータクラウドが平方和の点で元のクラウドに最も近いというエッカートヤングの定理の観点からも表現できます。つまり、古いポイントとそれらのPCA投影スポットとの間の全体的な平方距離は最小になります。これは、古いペアワイズ距離とは異なります-新しいpw距離関係。
ttnphns 2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.