N次元空間にデータポイントのセットがあります。さらに、この同じN次元空間に重心もあります。元の空間での相対的な距離情報を維持しながら、これらのデータポイントを2次元空間に投影できる方法はありますか?PCAは正しいですか?
N次元空間にデータポイントのセットがあります。さらに、この同じN次元空間に重心もあります。元の空間での相対的な距離情報を維持しながら、これらのデータポイントを2次元空間に投影できる方法はありますか?PCAは正しいですか?
回答:
問題に対処する一般的なフレームワークは、次元削減と呼ばれます。データの「必須情報」を維持しながら、N次元から2次元にデータを投影したいとします。最も適切な方法は、データの分布、つまりN次元多様体によって異なります。PCAは、最小二乗基準を使用して平面に適合します。これはおそらく「スイスロール」の例ではうまく機能しません:スイスロール。
より近代的な方法には、カーネルPCA、LLE、拡散マップ、スパース辞書表現が含まれます。距離の保存に関して、いくつかの方法は非ユークリッド距離を保存できます。
前の回答で述べたように、次元削減にはいくつかの方法があります。考慮すべき重要なことは、何を表現しようとしているのかです-ユークリッド距離測定に興味がありますか?または、サンプル間の類似性の測定基準?
前者の場合、PCAが適切です。これは、サンプル(動物、植物など)の測定などの継続的な測定で一般的に使用されます。私も以前の回答でより現代的な言及を調べます。
後者の場合、非ユークリッド距離メトリックを使用して類似性を比較しようとしている可能性がありますが、主成分コンポーネント序数(PCoA)や非メトリック多次元スケーリング(NMDS)などのいくつかの優れた方法が存在します。これらを使用する場合の例としては、さまざまな地域間で生態系のコミュニティを比較していて、さまざまな種類の生物が見つかった場合があります。したがって、データは「カウント」データです。Jaccard、Sorensen、Bray-Curtisなどの類似性の指標がいくつかあり、生物の構成におけるサイトの類似性を効果的に推定できます。PCoAとNMDSでは、基本的にサンプル(サイト)をプロットして生態学的距離(類似性)を表すことができ、各軸にサイトのスコアがあります。
多変量解析に関する優れた書籍やその他のリソースはたくさんあります。Googleで「Ordination」を検索します。また、「vegan」と呼ばれるRパッケージがあり、この作業の多くを実際に実行するのに非常に適しています。
あなたの問題は、多次元スケーリングのための教科書アプリケーションのように聞こえます。良い紹介がここにあります:http : //www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
もちろん、PCAを試すことができます。ただし、PCAには、相対距離情報を元の空間に保持する意図はありません。