高次元空間を2次元平面に投影する方法は?


11

N次元空間にデータポイントのセットがあります。さらに、この同じN次元空間に重心もあります。元の空間での相対的な距離情報を維持しながら、これらのデータポイントを2次元空間に投影できる方法はありますか?PCAは正しいですか?


1
距離を維持したい場合、私の最初の考えは距離自体の多次元スケーリングでした(PCAに関連しています)が、場所だけでなく距離もあるので、私の理解では、PCAはそのために機能するはずです。
Glen_b-2013

1
@Glen_b、重要な点は、MDSが距離入力用であり、PCAが座標入力用であるということではありませんが反復MDSは少数の次元に適合し、PCAは少数の次元を保持します。そのため、MDSは従来のPCAよりも多少距離を維持します。質問の答えは「はい、PCAは適していますが、MDSの方が適しています」です。
ttnphns 2013

1
これは、主に距離空間埋め込みの分野で研究されていることです。つまり、距離の歪みを最小限に抑えながら、データの次元数をどのように減らすことができますか。
ビットワイズ2013

回答:


6

問題に対処する一般的なフレームワークは、次元削減と呼ばれます。データの「必須情報」を維持しながら、N次元から2次元にデータを投影したいとします。最も適切な方法は、データの分布、つまりN次元多様体によって異なります。PCAは、最小二乗基準を使用して平面に適合します。これはおそらく「スイスロール」の例ではうまく機能しません:スイスロール

より近代的な方法には、カーネルPCA、LLE、拡散マップ、スパース辞書表現が含まれます。距離の保存に関して、いくつかの方法は非ユークリッド距離を保存できます。


2
「次元削減」メソッドは通常「相対距離情報」を維持しないことに注意することが重要です。それらがそうであるかどうかは、部分的には方法に、部分的には意図された「距離」に依存します。
whuber

2

前の回答で述べたように、次元削減にはいくつかの方法があります。考慮すべき重要なことは、何を表現しようとしているのかです-ユークリッド距離測定に興味がありますか?または、サンプル間の類似性の測定基準?

前者の場合、PCAが適切です。これは、サンプル(動物、植物など)の測定などの継続的な測定で一般的に使用されます。私も以前の回答でより現代的な言及を調べます。

後者の場合、非ユークリッド距離メトリックを使用して類似性を比較しようとしている可能性がありますが、主成分コンポーネント序数(PCoA)や非メトリック多次元スケーリング(NMDS)などのいくつかの優れた方法が存在します。これらを使用する場合の例としては、さまざまな地域間で生態系のコミュニティを比較していて、さまざまな種類の生物が見つかった場合があります。したがって、データは「カウント」データです。Jaccard、Sorensen、Bray-Curtisなどの類似性の指標がいくつかあり、生物の構成におけるサイトの類似性を効果的に推定できます。PCoAとNMDSでは、基本的にサンプル(サイト)をプロットして生態学的距離(類似性)を表すことができ、各軸にサイトのスコアがあります。

多変量解析に関する優れた書籍やその他のリソースはたくさんあります。Googleで「Ordination」を検索します。また、「vegan」と呼ばれるRパッケージがあり、この作業の多くを実際に実行するのに非常に適しています。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.