PCAまたはFAの最小サンプルサイズは、主な目標が数個のコンポーネントのみを推定することである場合ですか?


27

観測値と個の変数(次元)を含むデータセットがあり、通常は小さい()、は小さい()からおそらくはるかに大きい()。p n n = 12 16 p p = 4 10 p = 30 50npnn=1216pp=410p=3050

主成分分析(PCA)または因子分析(FA)を実行するには、がよりもはるかに大きい必要があることを覚えていますが、これは私のデータではそうではないようです。私の目的では、PC2を過ぎた主要コンポーネントにはほとんど興味がないことに注意してください。pnp

質問:

  1. PCAを使用しても問題ない場合とそうでない場合の最小サンプルサイズの経験則は何ですか?
  2. またはあっても最初の数台のPCを使用しても大丈夫ですか?n < pn=pn<p
  3. これに関する参照はありますか?
  4. あなたの主な目標がPC1とおそらくPC2を使用することであるかどうかは重要ですか?

    • 単にグラフィカルに、または
    • 次に、合成変数として回帰で使用されますか?

因子分析に関するこの種のガイドラインについて読んだことを覚えています。それにもPCAだけに興味がありますか?また、答えは扱っているデータのタイプに依存するかもしれませんが、特定の応用分野を念頭に置いていますか?
ガラ

1
以下のコメントと参考文献について、Gaelに感謝します。今、私はFAとPCAの違いを知る必要があります。:)
パトリック

3
この質問は、このサイトで広範囲にわたって扱われています。たとえば、stats.stackexchange.com / questions
Gala

回答:


21

サンプルサイズが「十分に大きい」かどうかを実際に測定できます。サンプルサイズが小さすぎるという1つの症状は、不安定性です。

PCAのブートストラップまたは相互検証:これらの手法は、サンプルのごく一部を削除/交換することでデータセットを妨害し、妨害された各データセットの「代理モデル」を構築します。代理モデルが十分に似ている(=安定している)場合は、問題ありません。おそらく、PCAの解は一意ではないことを考慮する必要があります。PCは反転できます(スコアとそれぞれの主成分の両方に掛けることができます)。また、Procrustes回転を使用して、できるだけ類似したPCモデルを取得することもできます。1


cbeleitesに感謝します。ブートストラップは、nが16などと非常に有益であると思いますか?理解するために、私は多くのPCAを実行し、実行ごとに1つのサイトを残して、相対的な安定性を求めています。
パトリック

その場合、1つのサンプルを削除することによって妨害される16個のモデルすべて(または2つのサンプルを除外した120個のモデルすべて)を調べることは確かに実行可能です。小さいでは、おそらくそのような体系的なcvのようなアプローチに行くと思います。n
cbeleitesは、モニカをサポートしています

23

因子分析(主成分分析ではない)については、観測数に関する古い経験則のいくつかに疑問を投げかける文献がかなりあります。伝統的な推奨事項は、 - psychometrics内に少なくとも-少なくとも有することであろう(可変あたり観察典型的にどこからでもへので、任意の場合)。X 5 20 N » Pxx520np

多くの参照を含むかなり徹底的な概要は、http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysisにあります。

しかし、最近のシミュレーション研究から得られた主なメッセージは、おそらく結果の質が非常に異なることです(共同体、因子の数、因子対変数比などに依存します)。変数と観測値の比は、必要な観測値の数を決定する良い方法ではありません。条件が縁起が良い場合、古いガイドラインが示唆するよりもはるかに少ない観察で逃げることができるかもしれませんが、場合によっては最も保守的なガイドラインでさえ楽観的です。たとえば、Preacher&MacCallum(2002)は非常に小さなサンプルサイズと良好な結果を得ましたが、Mundfrom、Shaw&Ke(2005)はサンプルサイズn > 100 pp>nn>100p必要でした。また、基礎となる要因の数が同じままである場合、観測値と変数の比に基づいたガイドラインで示されるように、より多くの変数(より少なくはない)が、観測値の小さいサンプルでより良い結果につながる可能性があることも発見しました。

関連する参照:

  • Mundfrom、DJ、Shaw、DG、Ke、TL(2005)。因子分析を実施するための最小サンプルサイズの推奨事項。International Journal of Testing、 5(2)、159-168。
  • 伝道師、KJ、およびマッカラム、RC(2002)。行動遺伝学研究における探索的因子分析:サンプルサイズが小さい場合の因子回復。行動遺伝学、 32(2)、153-161。
  • de Winter、JCF、Dodou、D。、およびWieringa、PA(2009)。サンプルサイズが小さい探索的因子分析。多変量行動研究、 44(2)、147-181。

5
(+1)シミュレーションと実際のデータセットを使用した別の論文は、N / pの経験則が実際にはあまりうまく機能しないことを示唆し、EFAで安定した正確なソリューションを得るために必要なサンプルサイズを提供します。 -さまざまな品質基準の制御-要因の数とアイテムの数の関数として(およびオプションで、フェルトの公式に基づいて、Cronbachのアルファ95%CIの半値幅)、精神医学的スケールで:サンプルサイズ要件精神スケールの内部検証 Int JメソッドPsychiatr Res。2011 12月; 20(4):235-49。
chl

1

MVA不等式の背後にある考え方は単純です。PCAは変数の相関行列を推定することと同等です。を推測しようとしていますpp12np

等価性はこのように見ることができます:各PCAステップは最適化の問題です。私たちは、最も多くの分散を示す方向を見つけようとしています。すなわち:

max(aiTΣai)

σ

制約の下で:

aiTai=1

aiTaj=0
j<i

Σσ

n = pを取得することは、2つのデータのみで値を推測することとほぼ同等です...信頼できません。

経験則はありません。PCAはから値を推測するのとほぼ同じことを覚えておいてください2np


kk(p1)+(p2)++(pk)pkp(p1)/2
whuber

ポイントは、行列のp(p-1)/ 2係数から固有ベクトルの(pk)係数を計算していることです。ランダム行列の場合、固有ベクトル/固有値を計算するいくつかの係数を「スキップ」する方法はないと思います。
-lcrmorin

確かにあります:通常のアルゴリズムは、固有値と固有ベクトルを、最大の固有値から順に1つずつ見つけます。それに、これは計算上の問題ではなく、推定値の数を数えることの1つです(答えを読み間違えない限り)。
whuber

1

これが役立つことを願っています:

FAとPCAの両方

''この章で説明する方法では、安定したソリューションを得るために大きなサンプルが必要です。適切なサンプルサイズを構成するものはやや複雑です。最近まで、アナリストは「因子分析には変数の5〜10倍の被験者が必要」などの経験則を使用していました。最近の研究では、必要なサンプルサイズは因子の数、各因子に関連付けられた変数の数、および方法によって異なることが示唆されています一連の要因が変数の分散を説明しています(Bandalos and Boehm-Kaufman、2009)。手足で外に出て、数百の観察結果があればおそらく安全だと言います」

参照:

バンダロス、DL、およびMR Boehm-Kaufman。2009. 「探索的因子分析における4つの一般的な誤解」。ニューヨーク:Routledge。

ロバートI.カバコフによる「R in Action」から。ほとんどすべての統計的検定をカバーする優れたアドバイスを含む非常に有益な本


2
あなたは本を差し込んで、二次または三次の情報源に基づいて以前に行ったいくつかのポイントを再ハッシュしているようです。これはあまり有用ではないようです。少なくとも2009年のBandalosとBoehm-Kaufmanの完全なリファレンスを提供していただけますか?
ガラ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.