EFAの代わりにPCAを使用する正当な理由はありますか?また、PCAは因子分析の代わりになりますか?


73

一部の分野では、PCA(主成分分析)が正当化されることなく体系的に使用され、PCAとEFA(探索的因子分析)は同義語と見なされます。

そのため、最近、PCAを使用してスケール検証研究の結果を分析しました(7ポイントのリッカートスケールで21項目、それぞれ7項目の3つの因子を構成すると仮定)。両方の手法の違いについて読みましたが、ここでの回答の大部分では、PCAに対してEFAが好まれているようです。

PCAの方が適している理由には、何か理由がありますか?私の場合、どのようなメリットがあり、なぜ賢明な選択になるのでしょうか?


1
いい質問ですね。私はttnphnsの答えに反対する傾向があり、今日は別の見解を提供しようとします。
アメーバは、モニカを復活させる14

5
@amoeba事前に応援しています。PCAは単なる変換手法であり、(時には非常に)役立つ場合があります。それを悪魔にしたり、偽りや不適切な意図に起因する必要はありません。同様に対数を破ることもできます。
ニックコックス14年

4
ttnphnsの回答がPCAを悪魔化しているとは思えません。私には、PCAはデータを生成する潜在変数の仮定に基づいていないと主張しているようです。したがって、それがあなたがやろうとしているのであれば、FAがより良い選択です。
GUNG -モニカ元に戻し

1
FWIW、私はttphnsの回答について特にコメントしていませんでしたが、コメントや批判については、PCAが意図していない、または適切でない何かをしていないという料金にしばしば遭遇します。
ニックコックス14年

3
@NeilG:PCAはない、それはノイズ項を含まないので、それに関連付けられている可能性がないため、[確率]生成モデル。ただし、確率的一般化(PPCA)があり、PCAと非常に密接に関連しています。ここでの私の答えを参照してください。
アメーバは2014

回答:


95

免責事項:@ttnphnsはPCAとFAの両方について非常に精通しており、私は彼の意見を尊重し、このトピックに関する多くの素晴らしい回答から多くを学びました。しかし、私はここでの彼の返事と、彼だけでなく、このトピックに関するこのトピックに関する他の(多数の)投稿にも反対する傾向があります。むしろ、それらの適用性は限られていると思います。


PCAとFAの違いは過大評価されていると思います。

そのように見てください:両方の方法は、与えられた共分散(または相関)行列の低ランク近似を提供しようとします。「低ランク」とは、限られた(少ない)数の潜在因子または主成分のみが使用されることを意味します。データの共分散行列がCの場合、モデルは次のとおりです。n×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

ここで、k列(通常はkが小さい数であるk < n)で構成される行列で、k個の主成分または因子を表し、Iは単位行列、Ψは対角行列です。各メソッドは、左辺と右辺の差を最小化するW(およびその他)を見つけるように定式化できます。Wkkk<nkIΨW

PPCAは確率的PCAの略で、それが何であるかわからなければ、今のところそれほど重要ではありません。言及したかったのは、PCAとFAの間にきちんと収まり、モデルの複雑さが中程度だからです。また、PCAとFAの間の大きな差を遠近法に入れています:確率モデル(FAとまったく同じ)であるにもかかわらず、実際にはPCAとほぼ同等であることがわかります(は同じ部分空間にまたがります)。W

最も重要なことは、モデルがの対角線を処理する方法のみが異なることに注意してください。次元nが大きくなると、対角線の重要度が次第に小さくなります(対角線上にn個の要素があり、対角線上にn n 1 / 2 = On 2要素があるため)。その結果、nが大きい場合、通常、PCAとFAの間に大きな違いはほとんどありません。nが小さい場合、実際には大きく異なる可能性があります。Cnnn(n1)/2=O(n2)nn

ここで、一部の学問分野の人々がPCAを好む理由に関する主な質問に答えます。私はそれがFAより数学的にはるかに簡単であるという事実に要約すると思います(これは上記の式から明らかではないので、ここで私を信じなければなりません):

  1. PCAとPPCA(わずかに異なる)には分析ソリューションがありますが、FAにはありません。したがって、FAは数値的に適合させる必要があり、それを行うさまざまなアルゴリズムが存在し、おそらく異なる答えを出し、異なる仮定の下で動作するなどです。場合によっては、一部のアルゴリズムがスタックすることがあります(「heywoodケース」を参照)。PCAの場合、固有分解を実行して完了です。FAはもっと面倒です。

    技術的には、PCAは変数を単純に回転させるため、@ NickCoxが上記のコメントで行ったように、変数を単なる変換と呼ぶことができます。

  2. PCAソリューションは依存しません。最初の3つのPC(k = 3)を見つけることができ、最初の2つのPC は最初にk = 2を設定した場合に見つけるものと同一になります。FAには当てはまりません。k = 2の解は、k = 3の解の中に必ずしも含まれているとは限りません。これは直感に反し、混乱を招きます。kk=3k=2k=2k=3

もちろん、FAはPCAより柔軟なモデルであり(結局、より多くのパラメーターがあります)、多くの場合、より便利です。私はそれに反対しているわけではありません。私主張しているのは、PCAは「データの記述」に関するものであり、FAは「潜在変数の発見」に関するものであるという概念が非常に異なるという主張です。私は、これがまったく(ほとんど)真実だとは思わない。

上記およびリンクされた回答に記載されているいくつかの特定のポイントにコメントするには:

  • 「PCAでは抽出/保持する次元の数は基本的に主観的ですが、EFAでは数は固定されており、通常はいくつかのソリューションを確認する必要があります」 - ソリューションの選択は依然として主観的であるため、私はしませんここで概念的な違いを参照してください。どちらの場合も、モデルの適合とモデルの複雑さの間のトレードオフを最適化するために、が(主観的または客観的に)選択されます。k

  • 「FAはペアワイズ相関(共分散)を説明できます。PCAは一般にそれを行うことができません」 -実際には、両方ともが大きくなるにつれて相関をより良く説明します。k

  • PCAとFAを使用する分野での慣行が異なるために、時々混乱が生じます(@ttnphnsの答えではありません!)。たとえば、FAの因子をローテーションして解釈可能性を改善することは一般的な慣行です。これはPCAの後にほとんど行われませんが、原則としてそれを妨げるものはありません。だから、人々はしばしばFAはあなたに「解釈可能な」何かを与え、PCAはそうではないと考えがちですが、これはしばしば幻想です。

最後に、非常に小さいの場合、PCAとFAの差は実際に大きくなる可能性があり、FAを支持する主張のいくつかは小さいnを念頭に置いて行われることを強調しておきます。極端な例として、n = 2の場合、単一の要因で相関関係を常に完全に説明できますが、1台のPCがそれを非常に悪く失敗する可能性があります。nnn=2


更新1:データの生成モデル

コメントの数から、私が言っていることは議論の余地があると考えられていることがわかります。コメントセクションがさらにあふれる危険性があるので、「モデル」に関するコメントをいくつか示します(@ttnphnsおよび@gungのコメントを参照)。@ttnphnsは、上記の近似を指すのに「共分散行列の」モデルという言葉を使用したことを好まない。これは用語の問題ですが、彼が「モデル」と呼ぶものは、データの確率的/生成的モデルです

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

PCAは確率モデルではなく、この方法で定式化できないことに注意してください。

PPCAとFAとの差はノイズ項である:PPCAは同じ雑音分散を前提と FAが異なる分散を前提とし、一方、各変数に対してΨ I I(「uniquenesses」)。この小さな違いは重要な結果をもたらします。両方のモデルは、一般的な期待値最大化アルゴリズムに適合できます。FAのための解析解が知られているが、PPCAいずれかの解析EMは、(両方に収束する溶液を導出することができるσ 2及びWが)。結局のところ、W P P C Aには同じ方向のカラムがありますが、標準のPCAローディングよりも長さが短くなっていますW P C Aσ2Ψiiσ2WWPPCAWPCA(正確な式は省略しています)。そのため、私はPPCAを「ほぼ」PCAと考えています。どちらの場合も、は同じ「主部分空間」にまたがっています。W

証拠(Tipping and Bishop 1999)は少し技術的です。均質なノイズの分散が非常に簡単な解決策につながる理由のための直感的な理由は、と同じ固有ベクトル持つCの任意の値のσ 2を、これがために真実ではないC - ΨCσ2ICσ2CΨ

そう、@ gungと@ttnphnsは、FAが生成モデルに基づいており、PCAがそうではないという点で正しいですが、PPCAも生成モデルに基づいているが、PCAと「ほぼ」同等であることを追加することが重要だと思います。それからそれはそのような重要な違いに見えなくなります。


更新2:PCAが最大分散を探していることがよく知られているのに、どうしてPCAは共分散行列に最適な近似を提供するのでしょうか?

PCAには2つの同等の定式化があります。たとえば、最初のPCは(a)投影の分散を最大化するものと、(b)最小の再構成誤差を提供するものです。より抽象的には、分散の最大化と再構築エラーの最小化の等価性は、Eckart-Young定理を使用して確認できます。

場合データ行列である(行として観察と、カラム、およびカラムなどの変数を中心されているものとする)、そのSVD分解がX = U S V、ウェルの列ことが知られており、Vは、散乱の固有ベクトルであります行列(または共分散行列、観測の数で割った場合)C = XX = V S 2 V及びそれらが分散(すなわち主軸)を最大化する軸です。しかし、Eckart-Youngの定理により、最初のk個の PCは、Xに対する最高のランクk近似を提供します。XX=USVVC=XX=VS2VkkX(この表記のみ取る手段K最大特異値/ベクトル)を最小 X - Xのk 2Xk=UkSkVkkXXk2

最初の PCは、Xに対する最良のランクk近似だけでなく、共分散行列Cにも提供します。実際、C = XX = V S 2 V、そして最後の式は、のSVD分解提供Cを(ので、Vは直交し、S 2は対角です)。だから、エッカート・ヤングの定理は最高rank-ことを教えてくれるのkの近似Cがで与えられるC K = Vの k個のS 2 k個kkXCC=XX=VS2VCVS2kC。これは、注目して形質転換することができる W = V Sは、 PCA負荷量、などである C K = Vの k個のS 2 K V K = V S K V S kは = W K W KCk=VkSk2VkW=VS

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

ここで一番下の行は、 冒頭で述べたように。

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

更新3:PCA FAがn ∞の場合の数値デモn

@ttnphnsから、次元が大きくなるにつれてPCAソリューションがFAソリューションに近づくという私の主張を数値的に実証するように勧められました。ここに行きます。

いくつかの強力な非対角相関を持つランダム相関行列を生成しました。私は、左上たN × Nの正方形ブロックCと、この行列のをN = 25 50 ... 200次元の効果を調査するために変数を。各nに対して、コンポーネント/因子の数k = 1 5でPCAとFAを実行し、各kに対して非対角再構成誤差i j [ C200×200 n×nCn=25,50,200nk=15k(対角線上の点に注意し、FAは再構築 Cを起因して、完全にΨのPCAにはないのに対し、用語;しかし対角線はここでは無視されます)。次に、nおよびkごとに、PCA非対角誤差とFA非対角誤差の比を計算しました。FAは可能な限り最高の再構成を提供するため、この比率は1より大きくなければなりません。

ij[CWW]ij2
CΨnk1

PCA対FAの非対角再構成エラー

右側では、異なる線が異なる値に対応し、nは水平軸に表示されます。なおとして、nが大きくなる、(すべてのための比Kアプローチ)1 PCAとFAがほぼ得同じ負荷、PCAつまり、 FA。比較的小さいとnは、例えばとき、N = 25、PCAは[予想通り】悪い行い、その差は小さいため、その強くないK、さらにためにK = 5の比は以下である1.2knnk1nn=25kk=51.2

因子の数が変数の数nに匹敵するようになると、比率は大きくなります。上記のn = 2k = 1の例では、FAは0再構成エラーを達成しますが、PCAはそうではありません。つまり、比率は無限になります。しかし、元の質問に戻ると、n = 21およびk = 3の場合、PCAはCの非対角部分の説明でFAに適度に失うだけです。knn=2k=10n=21k=3C

実際のデータセット(ワインデータセット)に適用されるPCAとFAの図解例については、ここでの私の回答を参照してください。n=13


2
ここでのトピックに関するほとんどの(それ以外の場合は優れた)答えは明示的な数学的比較を行っていないため、技術間の数学的相違について質問しようとしています。この答えはまさに私が探していたものです。
シャドウトーカー14年

2
σ2Ψk

3
ここではttnphnsに同意し続けます。PCAはデータの単なる変換であるのに対し、FAは潜在変数に基づいているという区別です。しかし、これは非常に合理的であり、有用な反対の立場です。これは、このスレッドの品質に貢献します。+1
グン-モニカの復職

5
@amoebaあなたの答えは素晴らしいです。それはとても明確で満足しています。あなたのビジョンを共有してくれてありがとう。
サブハッシュC.ダバール14年

2
zN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ

27

あなたが言ったように、あなたは関連する答えに精通しています。見るSo, as long as "Factor analysis..."+最後の段落のカップル。ここの一番下のリスト。要するに、PCAはデータ削減手法であり、FAは潜在特性のモデリング手法です。場合によっては、同様の結果が得られることもあります。しかし、あなたの場合-おそらく潜在的な特性を実際のエンティティのように構築/検証したいので、FAを使用する方がより正直になり、結果が収束することを期待してPCAを好むべきではありません。一方、データを要約/単純化することを目的とする場合(たとえば、後続の分析など)は、データに強力なモデル(無関係かもしれない)を課さないため、PCAを好むでしょう。

他の方法を繰り返すと、PCAはあなたに寸法与えいくつかに対応して主観的に意味のある EFAは一方で、必要に応じて、構造を提起するものでもあることを実際に生成された秘密の機能あなたのデータを、それがそれらの機能を見つけることを目指しています。FAでは、次元(因子)の解釈は保留中です-潜在変数に意味を付けることができるかどうかは「存在」します(FAは本質的です)、そうでない場合はモデルから削除するか、サポートするデータを取得する必要がありますそれ。PCAでは、ディメンションの意味はオプションです。

もう一度言います:m 要因(エラーとは別の要因)を抽出すると、これらの少数の要因が変数間のすべての相関を(ほぼ)説明します。したがって、「要因」が相関データを生成/バインドする潜在特性として定義されている限り、それを解釈するための完全な手がかりがあります-相関の原因は何ですか。PCA(「ファクター」のようにコンポーネントを抽出)では、エラーは依然として変数間で相関する可能性があります。そのため、そのように解釈するのに十分なクリーンで網羅的なものを抽出したと主張することはできません。

PCAがFAの実行可能な代替品であるかどうかについての理論的およびシミュレーション実験の詳細については、現在の議論のもう1つの長い回答をお読みください。このスレッドで与えられた@amoebaによる未解決の回答にも注意してください。


Upd:この質問への回答で、反対した@amoebaは、PCAとFAの中間に立つPPCA(あまり知られていない)テクニックを紹介しました。これにより、PCAとFAは反対ではなく1本の線に沿っているという論理が自然に始まりました。この貴重なアプローチは、理論的な視野を広げます。しかし、FAはいくつかの要因ですべてのペアワイズ共分散を再構築(説明)するという重要な実際的な違いを隠すことができますが、PCAはそれを正常に行うことができません(そして時々それを行う-それはmime FAに起こったためです)。


ご回答有難うございます!FAの結果は、実際にはPCAを介して得られた結果とほぼ一致しています。唯一のこと:最初の研究の著者(私の翻訳+検証)は、PCA分析を使用しました。これは私の論文にPCA分析を保持し、おそらくFAの結果が収束することを説明する文を追加するのに十分ですか、それともPCAをFAに置き換える必要がありますか?レビュアーは実際にそうするように明示的に求めているのではなく、FAの代わりにPCAを選んだ理由を正当化するように求めているだけであることに注意してください。
カリーヌ

著者がPCAを使用したが、より厳格で誠実なアプローチが彼らの場合にEFAを必要とする場合、結果を比較するために批判の行を削除し、PCAまたはPCAとEFAの両方を実行する必要があります。
ttnphns 14年

2
また、PCAでは抽出/保持する次元の数が基本的に主観的であるのに対し、EFAでは数が固定されていることに注意してください。通常、いくつかのソリューション(3から5要因など)をチェックする必要があります。相関行列とそれらがどの程度解釈可能であるかを再現します。FAはより退屈です。そのため、多くのEFAパスを試すために良心的なアプローチが必要な場合、人々はPCAを好むことがよくあります。
ttnphns

:また、Wikipediaのエントリを参照en.wikipedia.org/wiki/...
RobertF

15

この私の答え(2番目と追加で他のここでの私の)私は写真で表示するようにしようとするPCAは、( -最大化-分散を最適にそれが復元に対し)任意のよく共分散を復元しませんが。

X1X2Fa1a2h12h22

ここに画像の説明を入力してください

X1X2h1h2cosϕh12+h22a12+a22F

h1h2cosϕ=g1h2g1X1X2g1h2

ここに画像の説明を入力してください

a1a2a1a2)。

ここに画像の説明を入力してください

F

FX2X2a2X2h2a1X1g1g12+h22a12+a22

X1X2Fa1a2a12+a22g12+h22a12+a22F

FX1X2


PCAに関する@amoebaの「Update 2」への返信。

kX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk

||XXXkXk||2

10x6XXkk||XXXkXk||2XkXk

XXXkXk

ここに画像の説明を入力してください

y=x k

y=xk

したがって、PCA自体の領域でさえ、既知のように全体の分散を近似する上位主成分、および共分散行列全体でさえ、必ずしも非対角共分散を近似するわけではありません。したがって、これらの最適化が必要です。因子分析はそれを提供できる(またはその中の)手法であることを知っています。


@amoebaの「Update 3」へのフォローアップ:変数の数が増えるにつれてPCAはFAに近づきますか?PCAはFAの有効な代替品ですか?

AR=AA+U2U2

RR

ここに画像の説明を入力してください

264,7,10,13,16

R50n=200

2つの要因があるデータの場合、分析では2つの要因と1つの要因、および3つの要因(正しい数の要因体制の「過小評価」と「過大評価」)も抽出しました。6因子のデータについても、分析では同様に6因子、4因子、8因子が抽出されました。

この研究の目的は、FA対PCAの共分散/相関回復の品質でした。したがって、非対角要素の残差が得られました。再生された要素と母集団行列要素の間の残差、および前者と分析されたサンプル行列要素の間の残差を登録しました。第1タイプの残差は、概念的に興味深いものでした。

サンプルの共分散とサンプルの相関行列で行われた分析後に得られた結果には一定の違いがありましたが、すべての主要な調査結果は類似していました。そのため、「相関モード」分析のみについて(結果を表示して)議論しています。

1. PCA対FAによる全体的な非対角適合

以下の図は、さまざまな数の因子と異なるkに対して、PCAで得られた平均二乗非対角残差とFAで得られた同じ量比率をプロットしています。これは、「アップデート3」で@amoebaが示したものに似ています。プロットの線は、50回のシミュレーション全体の平均傾向を表しています(それらのst。エラーバーの表示は省略しています)。

(注:結果は、ランダムなサンプル相関行列の因数分解に関するものであり、それらの親である母集団行列の因数分解に関するものではありません。母集団行列を説明する方法に関してPCAとFAを比較するのはばかげています-FAは常に勝ちます。正しい数の因子が抽出され、その残差はほぼゼロになるため、比率は無限に向かって急ぎます。

ここに画像の説明を入力してください

これらのプロットのコメント:

  • 一般的な傾向:k(因子ごとの変数の数)が増加すると、PCA / FA全体のサブフィット比は1にフェードします。つまり、より多くの変数で、PCAは非対角相関/共分散の説明でFAに近づきます。(@amoebaの回答で文書化されています。)曲線を近似する法則は、b0が0に近い比率= exp(b0 + b1 / k)であると考えられます。
  • 比率は、「サンプル-再現サンプル」(左のプロット)のwrt残差が「人口-再現サンプル」-(右のプロット)よりも大きいです。つまり、(些細なことですが)PCAは、すぐに分析されるマトリックスの適合においてFAよりも劣ります。ただし、左側のプロットの線の方が減少率が速いため、k = 16になると、右側のプロットのように比率も2未満になります。
  • 残差「人口から再現サンプルを差し引いたもの」では、傾向は常に凸状または単調でさえありません(異常な肘は丸で囲まれて表示されます)。したがって、スピーチがサンプルの因数分解によって係数の母集団を説明することである限り、変数の数を増やしても、その傾向はありますが、PCAをそのfittinq品質で定期的にFAに近づけることはありません。
  • 比率は、母集団のm = 6因子よりもm = 2因子の方が大きくなります(太い赤色の線は太い緑色の線の下にあります)。つまり、データに作用する要因が増えると、PCAはより早くFAに追いつきます。たとえば、右のプロットでは、k = 4の場合、6因子で約1.7の比率が得られますが、k = 7では2因子の同じ値に達します。
  • 因子の真の数に対してより多くの因子を抽出すると、比率は高くなります。つまり、抽出時に因子の数を過小評価した場合、PCAはFAよりもわずかに悪いだけです。要因の数が正しいか、または過大評価されている場合、細い線を太線で比較してください。
  • 因子構造のシャープネスの興味深い効果があります。これは、残差を「母集団から再現されたサンプル」と見なした場合にのみ表示されます。右側のグレーと黄色のプロットを比較してください。母集団因子が変数を拡散的にロードすると、赤い線(m = 6因子)が下に沈みます。つまり、拡散構造(カオス数の負荷など)では、PCA(サンプルで実行)は、集団の相関関係の再構成において、集団の因子の数が非常に少ない。これはおそらく、PCAがFAに最も近く、より安価な代替品として最も保証されている状態です。鋭い因子構造が存在する場合、PCAは人口相関(または共分散)の再構築においてそれほど楽観的ではありません。大きなkの観点でのみFAに近づきます。

2. PCA対FAによる要素レベルの適合:残差の分布

母集団行列から50のランダムなサンプル行列の因数分解(PCAまたはFAによる)が行われたすべてのシミュレーション実験で、非対角相関要素ごとに残差「母集団相関マイナス再現(因数分解による)サンプルの相関」の分布が得られました。分布は明確なパターンに従っており、典型的な分布の例を以下に示します。PCAファクタリング後の結果は青色の左側であり、FAファクタリング後の結果は緑色の右側です。

ここに画像の説明を入力してください

主な発見は

  • 絶対的な大きさで発音された母集団の相関関係は、PCAによって十二分に復元されます。再現された値は大きさによって過大評価されます。
  • ただし、k(変数の数と因子の数の比)が増加すると、バイアスは消滅します。写真では、因子ごとにk = 4の変数しかない場合、PCAの残差は0からのオフセットで広がります。これは、2つの因子と6つの因子が存在する場合に見られます。しかし、k = 16の場合、オフセットはほとんど見られません。ほとんど消失し、PCA近似はFA近似に近づきます。PCAとFAの残差の広がり(分散)の違いは観察されません。

抽出された因子の数が真の因子の数と一致しない場合も同様の図が見られます。残差の分散のみが多少変化します。

上記の灰色の背景の分布は、母集団に存在する鋭い(単純な)因子構造の実験に関するものです。すべての分析が拡散母集団因子構造の状況で行われた場合、PCAのバイアスはkの上昇だけでなく、m(因子の数の上昇によっても消えることがわかりました。「6ファクター、k = 4」列に縮小された黄色の背景の添付ファイルを参照してください。PCAの結果では、0からのオフセットはほとんどありません(オフセットはm = 2でまだ存在し、写真には表示されません) )。

記載された調査結果が重要であると考えて、これらの残差分布をより深く検査し、残差の散布図(Y軸)を要素(母集団相関)値(X軸)に対してプロットすることにしました。これらの散布図はそれぞれ、多数(50)のすべてのシミュレーション/分析の結果を組み合わせたものです。LOESS適合線(使用するローカルポイントの50%、Epanechnikovカーネル)が強調表示されています。プロットの最初のセットは、母集団の鋭い因子構造の場合です(したがって、相関値の三峰性は明らかです)。

ここに画像の説明を入力してください

コメント:

  • スキュー、負の傾向の黄土線としてのPCAの特性である(上記の)再構成バイアスを明確に確認します。絶対値の大きな母集団相関は、サンプルデータセットのPCAによって過大評価されます。FAは公平です(水平黄土)。
  • kが大きくなると、PCAのバイアスは小さくなります。
  • PCAは、母集団に存在する要因の数に関係なく偏っています。6つの要因が存在する(および分析で6つ抽出される)場合、2つの要因が存在する(2つの抽出)と同様に欠陥があります。

以下のプロットの2番目のセットは、母集団の拡散因子構造の場合です。

ここに画像の説明を入力してください

ここでも、PCAによるバイアスを観察します。ただし、鋭い因子構造の場合とは対照的に、因子の数が増えるとバイアスは弱まります。6個の母集団因子では、PCAの黄土線はkのみ4でも水平になります。これは「黄色のヒストグラム」。

両方の散布図セットの興味深い現象の1つは、PCAの黄土線がS曲線であるということです。この曲率は、私がランダムに作成した他のポピュレーションファクター構造(負荷)の下に表示されます(私はチェックしました)が、その程度は異なり、しばしば弱いです。S形状に従う場合、そのPCAは0(特に小さなkの下)から跳ね返るときに相関を急速に歪ませ始めますが、約.30または.40の値から安定します。現時点では、その動作の考えられる理由については推測しませんが、「正弦波」は相関の三角法の性質に起因すると考えています。

PCA対FAによる適合:結論

1

PCAの全体的な適合能力に対する鋭い因子構造の影響は、「母集団から再現サンプルを差し引いた」残差が考慮される場合にのみ明らかです。したがって、シミュレーション研究の設定以外では認識できません。サンプルの観察研究では、これらの重要な残差にアクセスできません。

因子分析とは異なり、PCAは、ゼロから離れている母集団相関(または共分散)の大きさの(正の)偏った推定量です。PCAのbiasednessしかし減少変数の比率の数として/予想されるいくつかの要因が成長します。人口の要因の数が増えるにつれて偏り減少しますが、この後者の傾向は、存在する鋭い要因構造の下では妨げられます。

私は、PCAフィットバイアスと、それに対するシャープな構造の効果は、「サンプルから再生サンプルを差し引いた」残差を検討する際にも明らかにできることに注目します。新しいインプレッションが追加されないように見えるため、このような結果の表示を単に省略しました。

私の非常に暫定的で幅広いアドバイスは、最終的には、因子の10倍以上の変数がない限り、一般的な(母集団で10個以下の因子が予想される)因子分析目的でFAの代わりにPCAを使用しないことです。そして、要因が少ないほど、必要な比率はより厳しくなります。さらに、確立された鋭い因子構造を持つデータを分析するときはいつでも、FAの代わりにPCAを使用することはお勧めしません。。PCAは、心理測定器の最初の予備選択項目のツールとして使用できます。

研究の制限。1)因子抽出のPAF法のみを使用しました。2)サンプルサイズが修正されました(200)。3)サンプル行列のサンプリングでは、通常の母集団を想定しました。4)シャープな構造の場合、因子ごとに変数の同数がモデル化されました。5)母集団因子負荷の構築ほぼ均一な(鋭い構造の場合-三峰性、つまり3ピースの均一)分布からそれらを借りました。6)もちろん、このインスタント検査には見落としがあります。


1

次の写真を考慮してください(最初にそれらの理解方法を学ぶ必要がある場合は、この回答を読んでください):

ここに画像の説明を入力してください

mUpXp Up-mpXm=1P1p=2X1X2U1U2r=1

X3U

U

UX

rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
あなたのPCA / FA / CCA図面が大好きなので、嬉しく+1します。この考え方は私がまったく慣れていないものですので、私が知っている数学にマッピングするためにいくつかの考えが必要になります...図面)2つの変数しかありません。私の答えで言ったように、変数が2つしかない場合、FAの1つの因子は100%で完全に共分散を再現するのに十分です(対角を除く共分散行列には1つの自由度しかないため)通常、1台のPCではできません。したがって、私の答えに矛盾はありません。
アメーバは2014

うーん、FAとPCAが異なる複製のポイントを誤解しないように願っています。ここでの場所は私のポイントを短くするために、別の答えに入れたいと思います
ゴットフリードヘルムズ

2
あなたのアップデートに返信する(これは私のアップデート2への返信です):あなたがここに書いたすべてに絶対に同意します!PCA負荷は、共分散行列全体(対角線を含む)に対する最適な低ランク近似ですが、必ずしも非対角部分に対する最適な低ランク近似ではありません。この後者の近似は、因子分析によって与えられます。ここで相互に合意したようです。それとも、私の答えの一部があなたの考えと矛盾していると感じていますか?
アメーバは2014

1
@ttnphns:上記の議論を読み直し、元の回答で述べた1つのポイントに戻りましょう。PCAは、共分散行列全体を近似する負荷を見つけようとします。FAは、非対角部分に近い負荷を見つけようとします。しかし、次元が大きくなると、共分散行列の小さい部分がその対角線によって使用されます。つまり、大きい次元では、PCAはにその非対角部分を考慮し始めます(対角部分が非常に小さくなるため)。したがって、一般に、次元が大きいほど、PCAはFAに近くなります。同意しますか?
アメーバは、モニカを復活させる

1
ping、ttnphnsをありがとう。うわー、これは面白そうです。注意深く読みますが、今は読みません。1月まで延期する必要があるかもしれません。私はそれを読んだら、ここでコメントします。ところで、私は(私の頭の後ろで)このスレッドに戻って、答えを少し「編集」するために編集することを考えてきました。これはそうする良い機会かもしれません(しかし、最初に書いたことを読んでみましょう)。Снаступающим!
アメーバは、モニカを

4

(これは@ttnphnsの2番目の回答に対するコメントです)
PCとFAによるエラーを仮定した共分散の異なるタイプの再現に関する限り、2つの手順で発生する分散の負荷/コンポーネントを単純に出力しました。 ; 例のために、2つの変数を取りました。

1つの共通要因と項目固有の要因として、2つの項目の構築を想定しています。因子負荷行列は次のとおりです。

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

これによる相関行列は

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

loadings-matrix L_faを見て、f2とf3がエラー用語/アイテム固有のエラーであるとFAで通常どおりに解釈すると、そのエラーなしでCを再現します。

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

そのため、非対角要素を完全に再現しました。これは共分散です(対角は縮小されます)。

pca-solution(単純な回転で行うことができます)を見ると、同じ相関行列から2つの因子を取得できます。

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

2番目の要因をエラーと仮定すると、再現された共分散行列が得られます

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

ここで真の相関を過大評価しています。これは、2番目の因子=エラーでの負の部分共分散の修正を無視したためです。PPCAは最初の例と同じであることに注意してください。

アイテムが増えると、これはそれほど明白ではなくなりますが、それでも固有の効果です。したがって、MinRes-抽出(または-回転?)の概念もあり、最大決定因子抽出のようなものも見ました...


[更新] @amoebaの質問:

「最小残差」(「MinRes」)回転の概念を理解しました。これは、相関行列の非対角要素の最適な再現を達成するための、CFA計算の以前の方法と並行する方法です。私は80年代/ 90年代にこれを学びましたが、因子分析の開発には追従していませんでした(近年のように徹底的に)ので、「MinRes」は時代遅れかもしれません。

PCA解と比較するために、ユークリッド空間の軸と考えられ、荷重がそのベクトル空間のアイテムの座標である場合、因子の回転によってpc解を見つけることを考えることができます。
次に、x、yという1組の軸について、x軸の負荷とy軸の負荷からの平方和が計算されます。
これから、回転角度を見つけることができます。これにより、回転軸の平方和がx°で最大、y°軸で最小になります(リッテ円は回転軸を示します)。 。

これをすべての軸のペアに対して行い(常にx軸のみが左で、y軸が右であるため(4因子に対して6組の回転しかありません))、プロセス全体を繰り返して安定した結果が得られます主成分解を見つけるためのいわゆる「ヤコビ法」を実現します。これは、負荷の二乗和(「SSqL」)を収集するように最初の軸を特定します(これは「分散")現在の相関構成の1つの軸。

物事を理解している限り、「MinRes」はSSqLではなく偏相関を調べる必要があります。そのため、(Jacobi-pc-rotationで行われるように)負荷の2乗は合計しませんが、各因子の負荷のクロス積を合計します-各負荷の「クロス積」(=平方)を除きますそれ自体のアイテム。
x軸とy軸の基準が計算された後、反復ジャコビ回転について説明したのと同じ方法で進みます。

回転基準は最大SSqL基準と数値的に異なるため、結果/回転位置はPCAソリューションとは異なるものとします。収束する場合は、代わりに、最初の因子の1つの軸で可能な最大の部分相関、次の因子の次の最大相関などを提供する必要があります。その考えは、残りの/残余の部分共分散が限界になるほど多くの軸/因子を想定しているようです。

()私は明示的に書き出されている手順を見ていませんでした、私は物事を解釈する方法、これが唯一であることに注意してください(または、現時点では覚えていないことができます。で説明mathworldはアメーバの答えのように式の面ではなく、それを表現するようだ)とありますおそらくより権威があります。Rプロジェクトのドキュメントで別の参照を見つけました。また、要因分析に関するGorsuchの本、おそらくgoogle-booksで入手可能な116ページの非常に良い参照を見つけました)


あなたが最後の文で言及していることを説明できますか?「MinRes」または「maximum-determinant」抽出とは何ですか?また、それは以前に書いたものとどのように関連していますか?
アメーバは、モニカを復活させる

「MinRes」は、S MulaikまたはK.ÜberlaのFactoranalysisに関するモノグラフで数年前に出会った抽出または回転方法です。残りの非対角要素の最小化に焦点を当てています。他の多くのメソッドのコンテキストで明示的に言及されていたので、私はそれがその時代の実装-CFAと-おそらくわずかに-異なると仮定しました。私はその根拠をローテーション基準として実装しようとしましたが、どういうわけか決定的な結果はありませんでした。また、「行列式の最大化」がここで知られることを期待していました。私は... 20年前に受けたのだ何の説明がわかります
ゴットフリート・ヘルムズ

ああ、私は両方の部分を持っています。「minres」根拠の回転基準の説明はgo.helms-net.de/stat/fa/minres.htmにあります。「最大の決定要因」は、「oblisim」と呼ばれ、おそらく通信後に開発されたジェフリー・オーウェン・カッツ特派員の抽出/回転法の下での数学的モデルです。その時までに、それは私の頭の上にありました。とにかく私はメソッドを理解しようとし、フォーマットしてワードファイルに再編成しました。go.helms-net.de/stat/fa/oblisim.zipを参照してください。「oblisim」については、Googleがそれを導入したように見えるニュースグループエントリを提供しました。
ゴットフリードヘルムズ14年

@amoeba:ジェフ・カッツが彼の一連のメソッドを紹介した最初のエントリは次のとおり です。
ゴットフリードヘルムズ14年

2

私の考えでは、「PCA」と「FA」の概念は、「探索的」、「確認的」、または「推測的」の概念とは異なる次元にあります。したがって、2つの数学的/統計的手法のそれぞれは、3つのアプローチのいずれかで適用できます。

たとえば、なぜ仮説を立てるのが無意味である必要があるのか​​、データには一般的な要因があり、主要なコンポーネントのセットの構造もある(電子機器を使った実験でほぼエラーのないデータが得られたため)ので、仮説をテストします。後続の要因の固有値が75%の比率で発生すること これは、確認フレームワークのPCAです。

一方、私たちの研究チームでは、生徒間の暴力を測定し、3つの主要な行動(身体的侵略、うつ病、当局/親による助けの探索)を想定し、懸念のある質問をするためのアイテムバッテリーを多くの作業で作成することはばかげているようですそのバッテリーで...そして「探索的に」私たちが持っている因子の数を計算します...代わりに、スケールには3つの認識可能な因子が含まれています(無視できるアイテム固有の、おそらくは誤って相関したエラーさえ)。そしてその後、私が確認したとき、実際に私たちのアイテムバッテリーが意図に役立つことを、私たちは仮説をテストするかもしれません、より若い子供のクラスで「権限による検索-助け」を示す要因の負荷が高いです年上の生徒よりも うーん、再び確認...

探索的?私は1960年の微生物学の研究から取られた一連の手段を持ち、彼らは多くの理論を持っていませんでしたが、彼らの研究分野は非常に若かったので、彼らが管理できるすべてをサンプリングしました、そして私は(例えば)と仮定して支配的な因子構造を再探索します、使用する顕微鏡の光学精度のために、すべてのエラーが同じ量であることがわかりました(私が学んだばかりのppca-ansatz)。次に、FAの統計(およびその後の数学的)モデルを使用しますが、この場合は探索的な方法で使用します。

これは、少なくとも私が用語を理解する方法です。
多分私はここで完全に間違った道を進んでいますが、私はそれを想定していません。


追伸 90年代に、PCAの方法と因子分析を最後まで調査するための小さなインタラクティブプログラムを作成しました。Turbo-Pascalで記述され、Dos-Window(Win7では "Dos-box")でのみ実行できますが、魅力的な魅力があります。分散(SMC基準または等分散基準(ppca?)に従って)、カイザーオプションのオンとオフ、共分散の使用のオンとオフ-スプレッドシートのようにfactorloadingsmatrixが表示されている間基本的なさまざまな回転方法に合わせて回転させることができます。
それは高度に洗練されたものではありません。例えば、内部の数学的力学の自己学習を目的としたカイ二乗検定はありません。また、プログラムが実行される「デモモード」もあり、画面に説明的なコメントを表示し、ユーザーが通常行うキーボード入力をシミュレートします。
独習や教育を行うことに興味がある人は、私の小さなソフトウェアページinside-(R).zipからダウンロードできます。Dos-Boxでアクセスできるディレクトリでzip内のファイルを展開し、「demoall.bat」を呼び出します。 「デモ」の第3部では、最初のpcaソリューションからの回転によってアイテム固有のエラーをモデル化する方法のデモを行いました...


あなたのプログラムのRポートは面白いでしょう。ところで、私の最初のプログラミング言語(およびお気に入りの1つ)は[Turbo] Pascalでした。私はそれを使用して、私のBS卒業証書の仕事のためのソフトウェアを作成しました。その後、しばらくして、他の言語やシステムと一緒にしばらくDelphiを使用しました。:-)
アレクサンドルブレフ14年

1
@Aleksandr:まあ、そのようなインポートは確かに良いアイデアでしょう。しかし...一方、私はローカル交通システムの「シニアのチケット」を受け取り、まだ引退していませんが、プログラミングに少し疲れています...「Delphi」はTurbo Pascalの自然な代替品だと思います; 私は、Inside- [r]をヘルパーツールとして組み込んだDelphi 6を使用して、そのInside- [r]を行列計算機「MatMate」まで大幅に改善しました。任意の洗練されたscript-またはinterpreterlanguage ...ほかに-しかし、時々私は、ポイント&と本当に便利な機能も再認識すべきであるInside- [R]をクリックし、考える
ゴットフリート・ヘルムズ

2

Ψ

ΨΨ=0Ψ=σ2IΨ

ΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2ΨstdΨopt
Ψopt


ΨstdΨoptΨ


ΨoptCΨoptCCn×nnn1ΨoptΨWn×kkCWWΨ

ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k

ΨstdCstds>rs+1kΨopt共分散の場合、その構造は自己製造されておらず、自己製造された例によるすべての擬似ランダム実験は、経験的な場合よりも信頼性が低くなります。
ゴットフリードヘルムズ14

CC=CΨoptCrnkWrC

本当です。さて、実際に計算可能な近似に還元するところから「理想的な」事例を見つけなければならない場所を最も明示的にしようと考えました。<br>そして、PCAにさらに有利になりました;-):(アプリケーション/推論統計の2番目のモードで)エラーにスプリアス相関を許可すると、PC抽出で始まったタイプの1つにより近い結果が得られます...
ゴットフリードヘルムズ14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.