同じデータセットに対するPCAと探索的因子分析:相違点と類似点。因子モデルとPCA


19

同じデータセットに対して主成分分析(PCA)と探索的因子分析(EFA)を実行することが論理的に意味があるかどうかを知りたいです。専門家が明示的に推奨することを聞いたことがあります:

  1. 分析の目的が何であるかを理解し、データ分析にPCAまたはEFAを選択します。
  2. 1つの分析を行った後、他の分析を行う必要はありません。

私はこの2つの動機付けの違いを理解していますが、PCAとEFAが同時に提供する結果の解釈に何か問題があるのではないかと思っていましたか?


8
なぜ不安?2つの動機付けの違いを理解している場合は、次の2つの位置のいずれかにいる必要があります。あなたがしたいことについてもっと説得力があると考えてください。正しいことはあると言われたいようですが、FAとのPCAまたはFAに対するPCAは長年の論争の領域であるため、2人の専門家が同意する場合、通常は両方とも3人目の専門家と意見が異なるだけですが、理由。
ニックコックス14

何を勉強しているの?幸福のような社会科学の事柄や金利のような客観的なデータ?
アクサカル

回答:


20

主成分共通因子の両方のモデルは、潜在変数によって観測変数を予測する同様の単純な線形回帰モデルです。変数V1 V2 ... Vpを中心にして、2つのコンポーネント/ファクターFIFIIを抽出することにしました。そして、モデルは連立方程式です:

V1=a1F+a1F+E1

V2=a2F+a2F+E2

Vp=

ここで、係数aは負荷、Fは因子または成分、変数Eは回帰残差です。ここで、FAモデルPCA モデルとは異なり、FAが要件を課しています。変数E1 E2 ... EpF s と相関のない誤差項)は互いに相関してはなりませ(図を参照)。これらのエラー変数FAは「固有の要因」と呼ばれます。それらの分散は既知(「一意性」)ですが、ケースワイズ値はそうではありません。したがって、因子スコアFは適切な近似としてのみ計算され、正確ではありません。

(この共通因子分析モデルの行列代数表示は脚注1にあります。)1

PCAでは、異なる変数を予測することによるエラー変数は自由に相関する可能性があります:それらには何も課されません。それらは、私たちが除外されたp-2次元をとった「ドロス」を表しています。Eの値がわかっているため、コンポーネントスコアFを正確な値として計算できます。

それがPCAモデルとFAモデルの違いでした。

上記の概要の違いにより、FAはペアワイズ相関(共分散)を説明できます。PCAは通常、それを実行できません(抽出されたコンポーネントの数= pでない限り)。多変量分散2のみを説明できます。したがって、相関を説明する目的で「因子分析」という用語が定義されている限り、PCA 因子分析ではありません。「因子分析」が、解釈できる潜在的な「形質」を提供または示唆する方法としてより広く定義されている場合、PCAは、因子分析の特別かつ最も簡単な形式であることがわかります。2

場合によっては、特定の条件下での一部のデータセットでは、PCAがEタームを残しますが、Eタームはほとんど相互相関しません。その後、PCAは相関関係を説明し、FAのようになります。多くの変数を持つデータセットでは、それほど珍しいことではありません。これにより、一部のオブザーバーは、データが増加するにつれてPCAの結果がFAの結果に近づくと主張しました。私はそれがルールだとは思わないが、その傾向は確かにそうかもしれない。とにかく、それらの理論的な違いを考えると、方法を意識的に選択することは常に良いことです。変数を潜在的なものにまで減らしたい場合、FAはより現実的なモデルです。これを、変数の背後に立って相関させる真の潜在的な特性と見なします。

しかし、別の目的がある場合-データクラウドのポイント間の距離を可能な限り保ちながら次元を減らします-PCAはFAよりも優れています。(ただし、反復多次元スケーリング(MDS)の手順はさらに優れています。PCAは非反復メトリックMDS 相当します。)さらに距離を気にせず、データの全体的な分散をできるだけ維持したい場合できるだけ少ない寸法で-PCAが最適な選択です。


因子分析データモデル: V = F A + E d i a g u 、ここで Vは分析データ(中央揃えまたは標準化された列)、 Fは一般的な因子値(因子スコアではなく、未知の真のもの)分散、 Aは共通因子負荷の行列(パターン行列)、 Eは一意の因子値(不明)、 uは一意性の平方根( u 2)に等しい一意の因子負荷のベクトルです。部分1V=FA+EdagあなたはVn cases x p variablesFn x mAp x mEn x pあなたはpあなたは2は、答えを開く式にあるように、簡単にするために単に「E」とラベル付けすることができます。Edagあなたは

モデルの主な仮定:

  • 変数と E変数(それぞれ共通因子と一意の因子)の平均と単位分散はゼロです。 Eは通常多変量正規であると想定されますが、一般的な場合、 Fは多変量正規である必要はありません(両方が多変量正規であると想定される場合、 Vもそうです)。FEEFV
  • 変数は互いに無相関で、 F変数とは無相関です。EF

共通因子分析モデルから、 A m とも表記されるm個の共通因子(m<p変数)の負荷 Aは、変数 Σで観測された共分散(または相関)を厳密に再現する必要があります。そのため、因子が直交する場合、基本的な因子定理2 AAmΣ

Σ Σ +は、dは、IGU2Σ^=AAΣΣ^+dagあなたは2

ここで、Σは、その対角線上の共通の差異(「共通性」)で再現共分散(または相関)の行列です。ユニークな分散(「一意性」)-分散からコミュニティ性を引いたもの-はベクトルu 2です。非対角の不一致()は、要因がデータを生成する理論モデルであり、そのため、それが構築された観測データよりも単純であるためです。観測された共分散と再現された共分散(または相関)の不一致の主な原因は次のとおりです。(1)因子の数mは統計的に最適ではありません。(2)偏相関(これらはΣ^あなたは2p(p-1)/2共通の要因に属さない要因)が顕著です。(3)コミュニティの評価が不十分であり、初期値が低かった。(4)関係は線形ではなく、線形モデルの使用は疑わしい。(5)抽出方法によって生成されたモデル「サブタイプ」は、データに最適ではありません(異なる抽出方法についてはを参照)。言い換えれば、一部のFAデータの前提条件が完全には満たされていません。

単純なPCAに関してはm = p(すべてのコンポーネントが使用される)の場合、正確に負荷による共分散を再現します。通常、m < p(保持される第1コンポーネントのみ)の場合、共分散を行いません。PCAの因子定理は次のとおりです。

Σ=AAp=AAm+AApm

そのため、ローディングとドロップされたA p m ローディングの両方は、コミュニティ性と一意性の混合であり、どちらも個別に共分散を復元することはできません。mpに近いほど、原則としてPCAは共分散をより良く復元しますが、小さいm(多くの場合、私たちの関心事です)は役に立ちません。これは、非常に少ない最適数の因子で共分散を復元すること目的としたFAとは異なります。場合A A ' P - mはに近づく対角のPCAを用いて、FAのようになるAAmApmAApmすべての共分散を復元します。既に述べたように、PCAで時々発生します。しかし、PCAには、このような対角化を強制するアルゴリズム機能がありません。それを行うのはFAアルゴリズムです。Am

PCAではなくFAはデータ生成モデルです。共分散の「真の」値を生成する「真の」共通因子(通常は未知数なので、範囲内でmを試してみます)はほとんどありません。観測された共分散は、「真の」共分散+小さなランダムノイズです。(これは、広葉樹実行対角に起因している唯一、必ずしも効率的な過剰適合試行試行をオーバーフィットを最適量よりも多くの因子に適合しようとする。上記ノイズが小さく、ランダムであってもよいことを、すべての共分散の復元)を、としません。Am

FAとPCAは両方ともを最大化することを目指していますが、PCAにとってはそれが唯一の目標です。FAの場合、これは付随する目標であり、もう1つは一意性を対角化することです。そのトレースは、PCAの固有値の合計です。FAの一部の抽出方法では、トレースを最大化することを犠牲にしてより多くの目標を追加するため、それは重要ではありません。traceAAm

2つの方法の明確な違いを要約します。FAは(直接的または間接的にA A 'の個々の対応する非対角要素間の差を最小化することを目的としています。成功したFAモデルは、共分散の誤差を小さくランダムに似たものにします(正常または一様な0、外れ値/脂肪の尾部なし)。PCA は、t r a c e A ' A )に等しいt r a c e A A 'のみを最大化します(ΣAAtraceAAtraceAAは主成分の共分散行列に等しく、これは対角行列です)。したがって、PCAはすべての個々の共分散で「ビジー」ではありません。単にデータの直交回転の形式であるため、単純に不可能です。AA

共分散は共有分散であるため、トレースを最大化したおかげで-m個のコンポーネントによって説明された分散-PCA 共分散を考慮しています。この意味で、PCAは変数の共分散行列全体の「低ランク近似」です。観測の観点から見ると、この近似は観測のユークリッド距離行列の近似です(これが、PCAが「主座標分析」と呼ばれる計量MDSである理由です。この事実は、PCAがモデル化しないという現実変数に対して超越的であると考えられる少数の生きている潜在特性によって生成される共分散行列(各共分散); PCA近似は、たとえそれが良いとしても、内在のままです:データの単純化です。


あなたはPCAとFAで行われ、ステップバイステップの計算、コメントや比較を見たい場合は、で見てくださいここに


それは素晴らしい答えです。
サブハッシュC.ダバール14

2
+1は、PCAを見るという新鮮な視点をもたらしました。私が理解したように、PCAとFAの両方が観測された変数の分散を説明でき、FAは各変数の誤差項を相関させるべきではないので、PCAはそのようなディクテーションを行わないため、FAは観測された変数ですが、PCAですべてのPCを使用して観測された変数を表さない限り、PCAではエラー項に観測された変数の共分散が含まれている可能性があるため、PCAはそれを実行できません。
アボカド14

1
まさに。PCAは、共分散値を過小評価するだけでなく(おそらくあなたが思うように)、過大評価することもできます。要するに、a1 * a2 <> Cov12は、PCAの通常の動作です。FAの場合、それは次善の解決策の兆候です(たとえば、抽出された因子の数が間違っています)。
ttnphns 14

Σ=WW+σ2Σ=WW+ΨΨ
アメーバは、モニカを

ΣWWWΨσ2

6

次のスレッドで、PCAとFAの類似点と相違点について独自の説明を提供しました。EFAの代わりにPCAを使用する正当な理由はありますか?また、PCAは因子分析の代わりになりますか?

私のアカウントは、@ ttnphnsのアカウントとは多少異なることに注意してください(上記の回答を参照)。私の主な主張は、PCAとFAはよく考えられているほど異なるものではないということです。実際、変数の数が非常に少ない場合、それらは大きく異なる可能性がありますが、変数の数が約12を超えると、非常に類似した結果が得られる傾向があります。数学的な詳細とモンテカルロシミュレーションについては、リンクされたスレッドの私の[長い!]答えを参照してください。私の議論のより簡潔なバージョンについては、ここを参照してください: PCAとFAはどのような条件下で同様の結果をもたらしますか?

ここで私はあなたの主な質問に明確に答えたいと思います:同じデータセットでPCAとFAを実行することに何か問題はありますか?これに対する私の答えは:いいえ。

PCAまたはFAを実行している場合、仮説をテストしていません。どちらもデータの理解を深めるために使用される探索的手法です。では、2つの異なるツールを使用してデータを探索してみませんか?実際、やってみましょう!

例:ワインデータセット

n=178p=13

ワインデータセットのPCAおよびFA分析


If the results turn out to be very similar, then you can decide to stick with only one approach。確かに。どのくらい似ていますか?If the results turn out to be very different, then maybe it tells you something about your dataそれは完全に神秘的で難解です。
ttnphns

うーん、それが不明確だったらごめんなさい。私が意図したことは、多くの変数があり、PCAがFAとは非常に異なる負荷をもたらす場合、それは何かを教えてくれるということです。おそらく、コミュニティ性は非常に低いです(つまり、相関行列は対角線によって支配され、非対角要素は小さいです)。これは興味深い観察結果になります。何らかの理由でPCAとFAで同じデータセットを分析し、非常に異なる結果が得られた場合、さらに調査します。理にかなっていますか?
アメーバは、モニカを復活

@ttnphns:ある特定のデータセットについて、よく練られた例を使って更新しました。楽しんでください!リンクされた(新しい)回答も参照してください。FAのバイプロットを作成したのは初めてで、以前の会話はそのために大いに役立ちました。
アメーバは、モニカを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.