サンプル間の主成分分解を比較するためのテスト/手法/方法はありますか?


8

同じ母集団から抽出された異なるサンプルのPCA結果の方向、大きさなどを比較する方法論的な方法はありますか?

さまざまな可能性をすべて聞きたいので、テストの性質を故意に曖昧にしておきます...たとえば、最初の主成分のサイズを比較するテスト(または、ここで推測している)があるかもしれません。主成分の方向を比較するテスト、またはPCAの結果とそれらが等しいかどうかの検定統計量の間に何らかの距離測定があります。

ユースケースに関する限り、私は心に留めていません。好奇心から、おそらく探索的手法として。


同じ空間に2つのサンプルセットが存在する(つまり、同じ機能を持つ)と想像していますか?それで、基本的に、2つの異なる点の雲、それは正しいのですか?雲は同じ数の点を持っていると思いますか、または必ずしもそうではありませんか?
amoeba 14

はい、申し訳ありませんが、これらは同じ母集団の2つのサンプルです。サイズが異なるサンプルの答えが異なる場合は、それについて知りたいのですが。
シャドウトーカー2014

「マルチグループ因子分析」という用語をグーグルで操作すると、多くのリンクが得られます。これは、幅広い(そして私はよく考えている)議論された領域です。私が正しく思い出せば、いくつかの特殊なソフトウェアさえあります
ゴットフリードヘルムズ14

回答:


6

nd

この目的のための標準的なテストはないと思います。特定の質問については、おそらく何らかの方法やテストを考え出すことができますが、あなたの質問は少し広すぎて、可能なテストを考え出そうとすることはできません。

θ2nnθ10000θθp

同じアプローチを使用して、たとえば最大固有値を比較できます。または最小の固有値。または、実際に比較するほとんどすべてのもの。

それとは別に、「PCA結果の同等性」全体の検定統計量が必要な場合は、2つの共分散行列を比較する検定を使用する必要があります(PCAをまったく行わない)。例:ボックスのM検定(分散の等価性に関するバートレット検定の多変量一般化)。


+1共分散行列を直接比較するほうがおそらく理にかなっている
Andrew M

1
あなたの答えを再読すると、correpsondjng主軸間の平均角度はおそらく私が求めていたもののようなものであると思いました。
シャドウトーカー2017年

1

サンプルセット2が1と2で、情報の90%をマップできる1からn番目の主成分が見つかったとします(nは両方で異なる場合があり、90は任意です)。

主成分にマッピングした後、set1に保持できる情報の量を計算できます。新しいセットを宣言する前に失う可能性のある情報量のしきい値を設定して、独自の主要コンポーネントに値するほど十分に異なるものを宣言します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.