同じデータセットに対して主成分分析(PCA)と探索的因子分析(EFA)を実行することが論理的に意味があるかどうかを知りたいです。専門家が明示的に推奨することを聞いたことがあります:
- 分析の目的が何であるかを理解し、データ分析にPCAまたはEFAを選択します。
- 1つの分析を行った後、他の分析を行う必要はありません。
私はこの2つの動機付けの違いを理解していますが、PCAとEFAが同時に提供する結果の解釈に何か問題があるのではないかと思っていましたか?
同じデータセットに対して主成分分析(PCA)と探索的因子分析(EFA)を実行することが論理的に意味があるかどうかを知りたいです。専門家が明示的に推奨することを聞いたことがあります:
私はこの2つの動機付けの違いを理解していますが、PCAとEFAが同時に提供する結果の解釈に何か問題があるのではないかと思っていましたか?
回答:
主成分と共通因子の両方のモデルは、潜在変数によって観測変数を予測する同様の単純な線形回帰モデルです。変数V1 V2 ... Vpを中心にして、2つのコンポーネント/ファクターFIとFIIを抽出することにしました。そして、モデルは連立方程式です:
ここで、係数aは負荷、Fは因子または成分、変数Eは回帰残差です。ここで、FAモデルはPCA モデルとは異なり、FAが要件を課しています。変数E1 E2 ... Ep(F s と相関のない誤差項)は互いに相関してはなりません(図を参照)。これらのエラー変数FAは「固有の要因」と呼ばれます。それらの分散は既知(「一意性」)ですが、ケースワイズ値はそうではありません。したがって、因子スコアFは適切な近似としてのみ計算され、正確ではありません。
(この共通因子分析モデルの行列代数表示は脚注1にあります。)
PCAでは、異なる変数を予測することによるエラー変数は自由に相関する可能性があります:それらには何も課されません。それらは、私たちが除外されたp-2次元をとった「ドロス」を表しています。Eの値がわかっているため、コンポーネントスコアFを正確な値として計算できます。
それがPCAモデルとFAモデルの違いでした。
上記の概要の違いにより、FAはペアワイズ相関(共分散)を説明できます。PCAは通常、それを実行できません(抽出されたコンポーネントの数= pでない限り)。多変量分散2のみを説明できます。したがって、相関を説明する目的で「因子分析」という用語が定義されている限り、PCA は因子分析ではありません。「因子分析」が、解釈できる潜在的な「形質」を提供または示唆する方法としてより広く定義されている場合、PCAは、因子分析の特別かつ最も簡単な形式であることがわかります。
場合によっては、特定の条件下での一部のデータセットでは、PCAがEタームを残しますが、Eタームはほとんど相互相関しません。その後、PCAは相関関係を説明し、FAのようになります。多くの変数を持つデータセットでは、それほど珍しいことではありません。これにより、一部のオブザーバーは、データが増加するにつれてPCAの結果がFAの結果に近づくと主張しました。私はそれがルールだとは思わないが、その傾向は確かにそうかもしれない。とにかく、それらの理論的な違いを考えると、方法を意識的に選択することは常に良いことです。変数を潜在的なものにまで減らしたい場合、FAはより現実的なモデルです。これを、変数の背後に立って相関させる真の潜在的な特性と見なします。
しかし、別の目的がある場合-データクラウドのポイント間の距離を可能な限り保ちながら次元を減らします-PCAはFAよりも優れています。(ただし、反復多次元スケーリング(MDS)の手順はさらに優れています。PCAは非反復メトリックMDS に相当します。)さらに距離を気にせず、データの全体的な分散をできるだけ維持したい場合できるだけ少ない寸法で-PCAが最適な選択です。
因子分析データモデル: V = F A ′ + E d i a g (u )、ここで Vは分析データ(中央揃えまたは標準化された列)、 Fは一般的な因子値(因子スコアではなく、未知の真のもの)分散、 Aは共通因子負荷の行列(パターン行列)、 Eは一意の因子値(不明)、 uは一意性の平方根( u 2)に等しい一意の因子負荷のベクトルです。部分n cases x p variables
n x m
p x m
n x p
p
は、答えを開く式にあるように、簡単にするために単に「E」とラベル付けすることができます。
モデルの主な仮定:
共通因子分析モデルから、 A (m )とも表記されるm個の共通因子(m<p変数)の負荷 Aは、変数 Σで観測された共分散(または相関)を厳密に再現する必要があります。そのため、因子が直交する場合、基本的な因子定理は
とΣ≈ Σ +は、dは、IG(U2)、
ここで、Σは、その対角線上の共通の差異(「共通性」)で再現共分散(または相関)の行列です。ユニークな分散(「一意性」)-分散からコミュニティ性を引いたもの-はベクトルu 2です。非対角の不一致(≈)は、要因がデータを生成する理論モデルであり、そのため、それが構築された観測データよりも単純であるためです。観測された共分散と再現された共分散(または相関)の不一致の主な原因は次のとおりです。(1)因子の数mは統計的に最適ではありません。(2)偏相関(これらはp(p-1)/2
共通の要因に属さない要因)が顕著です。(3)コミュニティの評価が不十分であり、初期値が低かった。(4)関係は線形ではなく、線形モデルの使用は疑わしい。(5)抽出方法によって生成されたモデル「サブタイプ」は、データに最適ではありません(異なる抽出方法についてはを参照)。言い換えれば、一部のFAデータの前提条件が完全には満たされていません。
単純なPCAに関しては、m = p(すべてのコンポーネントが使用される)の場合、正確に負荷による共分散を再現します。通常、m < p(保持される第1コンポーネントのみ)の場合、共分散を行いません。PCAの因子定理は次のとおりです。
、
そのため、ローディングとドロップされたA (p − m )ローディングの両方は、コミュニティ性と一意性の混合であり、どちらも個別に共分散を復元することはできません。mがpに近いほど、原則としてPCAは共分散をより良く復元しますが、小さいm(多くの場合、私たちの関心事です)は役に立ちません。これは、非常に少ない最適数の因子で共分散を復元することを目的としたFAとは異なります。場合A A ' (P - mは)に近づく対角のPCAを用いて、FAのようになるAすべての共分散を復元します。既に述べたように、PCAで時々発生します。しかし、PCAには、このような対角化を強制するアルゴリズム機能がありません。それを行うのはFAアルゴリズムです。
PCAではなくFAはデータ生成モデルです。共分散の「真の」値を生成する「真の」共通因子(通常は未知数なので、範囲内でmを試してみます)はほとんどありません。観測された共分散は、「真の」共分散+小さなランダムノイズです。(これは、広葉樹実行対角に起因している唯一、必ずしも効率的な過剰適合試行試行をオーバーフィットを最適量よりも多くの因子に適合しようとする。上記ノイズが小さく、ランダムであってもよいことを、すべての共分散の復元)を、としません。
FAとPCAは両方ともを最大化することを目指していますが、PCAにとってはそれが唯一の目標です。FAの場合、これは付随する目標であり、もう1つは一意性を対角化することです。そのトレースは、PCAの固有値の合計です。FAの一部の抽出方法では、トレースを最大化することを犠牲にしてより多くの目標を追加するため、それは重要ではありません。
2つの方法の明確な違いを要約します。FAは(直接的または間接的に)とA A 'の個々の対応する非対角要素間の差を最小化することを目的としています。成功したFAモデルは、共分散の誤差を小さく、ランダムに似たものにします(正常または一様な0、外れ値/脂肪の尾部なし)。PCA は、t r a c e (A ' A )に等しいt r a c e (A A ')のみを最大化します(は主成分の共分散行列に等しく、これは対角行列です)。したがって、PCAはすべての個々の共分散で「ビジー」ではありません。単にデータの直交回転の形式であるため、単純に不可能です。
共分散は共有分散であるため、トレースを最大化したおかげで-m個のコンポーネントによって説明された分散-PCA は共分散を考慮しています。この意味で、PCAは変数の共分散行列全体の「低ランク近似」です。観測の観点から見ると、この近似は観測のユークリッド距離行列の近似です(これが、PCAが「主座標分析」と呼ばれる計量MDSである理由です。この事実は、PCAがモデル化しないという現実変数に対して超越的であると考えられる少数の生きている潜在特性によって生成される共分散行列(各共分散); PCA近似は、たとえそれが良いとしても、内在のままです:データの単純化です。
あなたはPCAとFAで行われ、ステップバイステップの計算、コメントや比較を見たい場合は、で見てくださいここに。
次のスレッドで、PCAとFAの類似点と相違点について独自の説明を提供しました。EFAの代わりにPCAを使用する正当な理由はありますか?また、PCAは因子分析の代わりになりますか?
私のアカウントは、@ ttnphnsのアカウントとは多少異なることに注意してください(上記の回答を参照)。私の主な主張は、PCAとFAはよく考えられているほど異なるものではないということです。実際、変数の数が非常に少ない場合、それらは大きく異なる可能性がありますが、変数の数が約12を超えると、非常に類似した結果が得られる傾向があります。数学的な詳細とモンテカルロシミュレーションについては、リンクされたスレッドの私の[長い!]答えを参照してください。私の議論のより簡潔なバージョンについては、ここを参照してください: PCAとFAはどのような条件下で同様の結果をもたらしますか?
ここで私はあなたの主な質問に明確に答えたいと思います:同じデータセットでPCAとFAを実行することに何か問題はありますか?これに対する私の答えは:いいえ。
PCAまたはFAを実行している場合、仮説をテストしていません。どちらもデータの理解を深めるために使用される探索的手法です。では、2つの異なるツールを使用してデータを探索してみませんか?実際、やってみましょう!
If the results turn out to be very similar, then you can decide to stick with only one approach
。確かに。どのくらい似ていますか?If the results turn out to be very different, then maybe it tells you something about your data
それは完全に神秘的で難解です。