探索的要因分析で並列分析を正しく解釈するにはどうすればよいですか?


8

一部の科学論文では、方法論に対する私の理解と矛盾する方法で主軸因子分析の並列分析の結果を報告しています。何が欠けていますか?私は間違っていますか、それとも彼らですか。

例:

  • データ: 200人の人間のパフォーマンスが10のタスクで観察されました。個人およびタスクごとに、1人にパフォーマンススコアがあります。ここでの問題は、10個のタスクのパフォーマンスの原因となる要因の数を特定することです。
  • 方法:主軸因子分析で保持する因子の数を決定する並列分析。
  • 報告された結果の例:「並列分析は、2.21以上の固有値を持つ因子のみを保持する必要があることを示唆しています」

それはナンセンスですよね?

Horn(1965)によるオリジナルの論文と、Haytonらのようなチュートリアルから。(2004)並列分析は、ランダムデータに基づくカイザー基準(固有値> 1)の適応であることを理解しています。ただし、適応は、カットオフ1を別の固定数に置き換えるのではなく、各因子の個別のカットオフ値(およびデータセットのサイズ、つまり10スコアの200倍)に依存します。Horn(1965)とHaytonらの例を見てください。(2004)、R関数の出力はfa.parallel心理パッケージと平行nFactorsパッケージでは、並列分析により、実際のデータの固有値と比較するために、スクリープロットに下向きの傾斜曲線が生成されます。「固有値が2.21より大きい場合、最初の因子を保持します。さらに、固有値が1.65より大きい場合は2番目を保持します。…」。

「並行分析では、固有値が2.21以上の要素のみを保持する必要があることを示唆している」という適切な設定、考え方、方法論はありますか?

参照:

ヘイトン、JC、アレン、DG、スカルペロ、V。(2004)。探索的因子分析における因子保持の決定:並列分析に関するチュートリアル。組織研究方法、7(2):191-205。

ホーン、JL(1965)。因子分析における因子数の根拠とテスト。Psychometrika、30(2):179-185。


1
ちなみに、「サンプリングバイアス」を推定するために平均固有値を生成するために使用された非相関データの分布形式が批判的に検討され、Dinno、A.(2009)で拒否されたというHaytonらの要件。シミュレートされたデータの分布形式に対するホーンの並列分析の感度の調査。多変量行動研究、44(3):362–388。
Alexis 2014年

1
また、偶然paran、R(CRAN上の)とStata(Stataタイプのfindit paran内)の並列分析パッケージを参照してください。
Alexis

回答:


9

並列分析基準を表すには、2つの同等の方法があります。しかし、最初に私は文学に蔓延している誤解に注意する必要があります。

誤解
いわゆるカイザールール(1960年の論文を読んだ場合、カイザーは実際にはルールを好まなかった)1より大きい固有値は主成分分析のために保持されます。いわゆるカイザールールを使用すると、ゼロより大きい固有値が主因子分析/共通因子分析のために保持さます。この混乱は何年にもわたって発生しました。何人かの著者が、「主成分分析」というラベルを使用して、「主成分分析」を同じものではないときに使用することについて、ずさんにしていたためです。

この点について説得力が必要な場合の計算については、主成分分析と因子分析に対するホーンの並列分析の適用やさしく明確にするを参照してください。

並列分析の保持基準個の変数の
相関行列に基づく主成分分析では、いくつかの数量があります。まず、データの相関行列固有分解から観測された固有値が得られます。次に、自分と同じと「多数」のランダム(無相関)データセットの相関行列の固有分解からの平均固有値、。λ 1... λ P N P ˉ λ R 1... ˉ λ R Ppλ1,,λpnpλ¯1r,,λ¯pr

ホーンは彼の例を「サンプリングバイアス」の観点から組み立て、固有値(主成分分析用)のこのバイアスをとして推定し。このバイアスは、観測された固有値を調整するために使用できます: ε Q = ˉ λ R Q - 1 λ ADJ Q = λ Q - ε Qqthεq=λ¯qr1λqadj=λqεq

これらの量が与えられると、主成分並列分析の観測固有値の保持基準を、数学的に同等の2つの方法で表すことができます。q番目

λqadj{>1保持します。1保持されません。

λq{>λ¯qr保持します。λ¯qr保持されません。

主要因子分析/共通因子分析についてはどうですか?ここで、バイアス対応する平均固有値であることを覚えておく必要があります。(対角線が共通性で置き換えられた相関行列の固有分解のカイザールールはゼロより大きい固有値を保持するため、マイナスゼロ)。したがって、ここにます。 λ ADJ Q = λ Q - ˉ λ R Qεq=λ¯qr0=λ¯qrλqadj=λqλ¯qr

したがって、主要因子分析/共通因子分析の保持基準は次のように表す必要があります。

λqadj{>0保持します。0保持されません。

λq{>λ¯qr保持します。λ¯qr保持されません。

保持基準を表す2番目の形式は、主成分分析と共通因子分析の両方で一貫していることに注意してください(つまり、の定義は、構成要素/因子によって異なりますが保持基準の2番目の形式は、表現されていません。 λ ADJ Qλqadjλqadj

もう1つ...
主成分分析と主成分分析/共通因子分析はどちらも、相関行列ではなく共分散行列に基づくことができます。これにより、全体および共通分散に関する仮定/定義が変わるため、共分散行列に基づいて分析を行う場合は、保持基準の2番目の形式のみを使用する必要があります。


1
すごい!私にとって最初の重要な部分は、保持基準が。つまり、各因子特定のカットオフ値です。疑わしい文「並列分析は、2.21以上の固有値を持つ因子のみが保持されるべきであることを示唆しています」は、と等しくなります。不可能だよ。主成分分析の場合、固有ベクトルの合計はになり、因子分析の場合はます。関係なく1つのは、完全に無相関のデータ()のみ存在し、0(fa)または1(pca)のいずれかです。正しい?λ¯qrq q λ¯qr=2.21p<pλ¯rq
jhg

私は以前あなたの論文「Gently Clarifying ...」を読んだことがあり、とても気に入りました。この投稿では、「主要な因子分析/共通因子分析のためにゼロより大きいいわゆるカイザールール固有値を保持する」と述べており、この論文にも同様のコメントがあります。数学からすると、それは直感的で完全に理にかなっています-なぜこれまでこれに遭遇しなかったのでしょうか。これに関する他の論文/本はありますか、それともゼロが主要因分析の適切な参照であることを穏やかに明確にする最初の「穏やかに明確にする...」ですか(カイザー基準を使用する場合)?
jhg 2014年

2
おそらく:それらは単に、(つまり、保持されたもの)より大きい観測された固有値の最小値が2.21 であることを単に意味している可能性があります。追加する1つの警告があります。共分散行列を使用する場合は、保持基準の最初の形式を修正する必要があります。を使用する場合の仮定は、総分散(PCA)がデータの観測された分散の合計に等しいことであり、は変換され:この数は2.21になる可能性があります。λ¯rΣΣ>1>痕跡Σ/p
Alexis

@jhg Kaiserは、「[Guttman's]の普遍的に最強の下限では、対角に2乗した観測相関行列の正の潜在根の数を見つける必要がある」と書いています。しかし、ガットマンは、Rの固有値の臨界境界(R一意性ではない)としてユニティを記述するときに相関行列についても書いていました(ページ154の下部からページ155の上部まで)。ただし、Rのロジックは明確に引き出されていません。以前のページ150の途中でそれで-Uniquenesses、彼の波
アレクシス

4

はい、サンプルサイズが無限に大きい(または十分な大きさでない)場合は、2.21の値を持つ可能性があります。これは、実際には、固有値1ルールの拡張としての並列分析の開発の背後にある動機です。

私はこの答えをヴァッレ1999に引用し、あなたの質問に直接話す部分を斜体にしました。

主成分数の選択:再構成エラー基準の分散と他の方法との比較 †Sergio Valle、Weihua Li、およびS. Joe Qin * Industrial&Engineering Chemistry Research 1999 38(11)、4389-4401

並列分析。PAメソッドは基本的に2つの行列のPCAモデルを構築します。1つは元のデータ行列で、もう1つは元の行列と同じサイズの無相関データ行列です。このメソッドは、Screeテストのパフォーマンスを向上させるためにHornによって最初に開発されました。各行列の固有値が同じ図にプロットされている場合、交点の上のすべての値はプロセス情報を表し、交点の下の値はノイズと見なされます。この共通部分があるため、並列分析方法は、PCの数の選択において曖昧ではありません。多数のサンプルの場合、無相関変数の相関行列の固有値は1です。この場合、PAメソッドはAEメソッドと同じです。 ただし、サンプルが有限数のサンプルで生成される場合、初期固有値は1を超え、最終固有値は1未満になります。そのため、ホーンは非相関変数の相関行列固有値を、同じサンプルサイズ。


問題は、2.21という唯一の値が妥当かどうかです。Valleらからの引用の斜体部分として。有限数の観測値で表示する場合、(私の理解では)一連の減少する固有値が常に存在します。したがって、元のデータの各因子について、比較する並列分析からの異なる固有値があります。サンプルサイズが大きい(数千人のカップルを)になると、固有値は、私は1つの比較を理解することができ、その場合には1に収束が、唯一のレベル1で
JHG

ここで2.21は、このデータセットと使用される方法(つまり、その組み合わせ)に対して2.21が固有値が小さすぎるカットオフであることを意味していませんか?「唯一の価値」とはどういう意味かわかりません。固有値1ルールのように、一般的なルールを意味しますか?カットオフは、通常、並列分析ごとに異なります。
Deathkill14

並列分析は、変数の数(上記の例では「10タスク」)と観測数(例では200)に依存することを理解しています。したがって、これは個々のデータセットに非常に固有であり、「固有値1を使用しないでください、固有値2.21を使用する」のような一般的なルールはありません。それは確かにナンセンスです。ただし、10個の変数、つまり1〜10個の因子について200の観測値がある特定の例の場合。並列分析が、因子が1番目、2番目、3番目などであるかどうかに関係なく、2.21より大きい固有値を持つ因子を保持することを提案しているのでしょうか?
jhg 2014年

カットオフ値(1または2.21など)の考え方は、その値を下回ると因子の変動は本質的にノイズ(ランダムマトリックスのベースライン固有値であるため、本質的にノイズ)であるということです。通常、因子は最高から最低の固有値に並べ替えられますが、それはおそらく解釈可能性のためにおそらく重要です。したがって、「1番目2番目3番目」は必ずしも固定されているわけではありません。いずれの場合でも、あなたのケースで2.21より大きい固有値を持つ因子は、ノイズよりも多くの情報を含むと想定されます。持っておく。
Deathkill14 '15年

2

あなたの例は確かにはっきりしていませんが、それもナンセンスではないかもしれません。簡単に言えば、例がその決定規則を、同じ因子番号の実際の因子よりも大きい最初のシミュレートされた因子の固有値に基づいている可能性を検討してください。の別の例を次に示します。

d8a=data.frame(y=rbinom(99,1,.5),x=c(rnorm(50),rep(0,49)),z=rep(c(1,0),c(50,49)))
require(psych);fa.parallel(d8a)

データはランダムであり、変数は3つしかないため、2番目の要因は確かに意味をなさず、それが並列分析で示されています。*結果は、@アレクシスが「誤解」に関して言ったことも裏付けています。

次のように言って、私は、この分析の解釈:「パラレル分析は、その唯一の要因を示唆している[ ありませんコンポーネント]固有値が1.2E-6以上の場合は保持する必要があります。」これは、「実際の」固有値よりも大きい最初のシミュレートされた固有値の値であり、その後すべての固有値が必然的に減少するため、ある程度の意味があります。その結果を報告するのは厄介な方法ですが、シミュレーションされた相関のないデータからの対応する固有値よりも大きくない固有値を持つ要因(またはコンポーネント)に非常に懐疑的に見なければならないという推論と少なくとも一致しています。これは、スクリープロットの最初のインスタンスの後に、シミュレーションされた固有値が対応する実際の固有値を超える場合に一貫して当てはまるはずです。上記の例では、シミュレーションされた3番目の因子は、「実際の」3番目の因子よりもわずかに小さくなっています。


*この場合、Rは、「並列分析は、因子の数= 1およびコンポーネントの数= 2であることを示唆しています」と言いますが、うまくいけば、私たちのほとんどは、私たちのプロットを解釈するソフトウェアを信頼しないことを知っています...私は間違いなく2番目のコンポーネントが2番目のシミュレートされたコンポーネントよりも無限に大きいという理由だけで、2番目のコンポーネントは保持されません。


1
文章をどのように解釈するかについての素晴らしい創造的なアイデア。私はそれを簡単に考えただけではありません。そうではありません。
jhg 2014年

オイ。作業中の奇妙な記事のように
聞こえ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.