因子/成分スコアの計算方法
一連のコメントの後、私は最終的に(コメントなどに基づいて)答えを出すことにしました。これは、PCAのコンポーネントスコアおよび因子分析の因子スコアの計算に関するものです。
因子/成分スコアにより与えられるF = X B、Xが(分析変数である中心 PCA /因子分析は、共分散に基づいて、またはれた場合のz標準それは相関関係に基づいていた場合には)。Bは、因子/成分スコア係数(または重み)行列です。これらの重みはどのように推定できますか?F^= X BバツB
表記法
-因子があった方変数(項目)相関または共分散のマトリックス/ PCAは、分析しました。Rp x p
-因子/成分のマトリックス負荷。これらは、抽出後の負荷(多くの場合 Aとも呼ばれる)であり、潜在が直交または実質的に直交するか、回転後の負荷、直交または斜めになります。回転が斜めであった場合、パターンの負荷でなければなりません。Pp x m
A
-彼らの(負荷)傾斜回転後の因子/成分間の相関関係のマトリクス。回転または直交回転が実行されなかった場合、これは恒等行列です。Cm x m
-再生相関/共分散の行列減少=PCP'(=PP'直交溶液のために)、それは、その対角線上の共通性を含んでいます。R^p x p
= P C P′= P P′
-uniquenessesの対角行列(の一意+共同性=対角要素 R)。ここでは、数式を読みやすくするために、上付き文字( U 2)ではなく「2」を下付き文字として使用しています。うん2p x p
Rうん2
-再生相関/共分散の完全行列、= R + U 2。R∗p x p
= R^+ U2
-行列 Mの擬似逆行列。場合 Mがフルランクであり、 M + = (M ' M )- 1 M '。M+MMM+= (M′M )− 1M′
いくつかの正方対称行列 Mについて、 p o w e rへの上昇は固有値分解 H K H ′ = Mになり、固有値を累乗して合成し直します: M p o w e r = H K p o w e r H ′。MP O W E RMP O W E RH K H′= MMP O W E R= H KP O W E RH′
因子/成分スコアを計算する粗い方法
Cattellとも呼ばれるこの人気のある/伝統的なアプローチは、同じ係数でロードされるアイテムの値を単純に平均化(または合計)することです。数学的に、それが重み設定に達するスコアの計算にF = X B。このアプローチには主に3つのバージョンがあります。1)ローディングをそのまま使用します。2)それらを二分します(1 =ロード、0 =ロードなし)。3)負荷をそのまま使用しますが、あるしきい値よりも小さいゼロオフ負荷を使用します。B = PF^= X B
多くの場合、このアプローチでは、アイテムが同じスケール単位にある場合、値はそのまま使用されます。ただし、ファクタリングのロジックを壊さないようにするには、ファクタリングに入ったXを使用することをお勧めします-標準化(=相関の分析)または中央化(=共分散の分析)。バツバツ
私の見解では、ファクター/コンポーネントのスコアを計算する粗い方法の主な欠点は、ロードされたアイテム間の相関を考慮していないことです。ファクターによってロードされたアイテムが密接に相関し、一方が他方よりも強くロードされた場合、後者はより若い複製と合理的に見なされ、その重量は軽減されます。洗練された方法ではできますが、粗い方法ではできません。
もちろん、行列の反転は必要ないため、粗いスコアは簡単に計算できます。粗い方法の利点(コンピューターの可用性にもかかわらず依然として広く使用されている理由を説明する)は、サンプリングが理想的でない場合(代表性とサイズの意味)または分析が適切に選択されていません。ある論文を引用すると、「元のデータを収集するために使用されるスケールがテストされておらず、信頼性または有効性の証拠がほとんどまたはまったくない場合、合計スコア法が最も望ましい場合があります」。また、それは因子分析モデルがそれを必要とする、単変量潜在エッセンスとして必ずしも「ファクター」を理解する必要はありません(参照、参照)。たとえば、ファクターを現象のコレクションとして概念化することができます-アイテムの値を合計することは合理的です。
因子/成分のスコアを計算する洗練された方法
これらの方法は、因子分析パッケージが行うことです。彼らはさまざまな方法でを推定します。負荷AまたはPは因子/成分によって変数を予測する線形結合の係数ですが、Bは変数から因子/成分のスコアを計算する係数です。BAPB
を介して計算されたスコアはスケーリングされます:それらは1に等しいまたは近い分散(標準化またはほぼ標準化)-真の因子分散(2乗構造負荷の合計に等しい、ここの脚注3を参照)を持ちます。そのため、因子スコアに真の因子の分散を提供する必要がある場合は、スコアに(それらをst.dev。1に標準化して)その分散の平方根を掛けます。B
行われた分析からを保存して、Xの新しい観測のスコアを計算できるようにすることができます。また、Bは、スケールが因子分析から作成された場合、またはファクター分析によって検証された場合に、アンケートのスケールを構成する項目に重み付けするために使用できます。(二乗)Bの係数は、因子へのアイテムの寄与として解釈できます。回帰係数は、規格化されているようCoefficintsを標準化することができるβ = B σ I T E MBバツBB(ここで、σFCTOR=1)は、異なる分散を持つアイテムの寄与を比較します。β= bはσI T E Mσfa c t o rσfa c t o r= 1
スコア係数行列からのスコアの計算を含む、PCAおよびFAで行われた計算を示す例を参照してください。
PCA設定における荷重(垂直座標)とスコア係数b(スキュー座標)の幾何学的な説明は、ここの最初の2つの写真に示されています。ab
洗練された方法に移ります。
メソッド
PCA での計算B
成分負荷が抽出されるが回転されない場合、で、Lは固有値で構成される対角行列です。この式は、Aの各列をそれぞれの固有値(コンポーネントの分散)で割るだけです。B=AL−1Lm
A
同様に、です。この式は、回転(直交)(バリマックスなど)、または斜めに回転するコンポーネント(負荷)にも当てはまります。B=(P+)′
PCA内で適用された場合、因子分析で使用されるメソッドの一部(以下を参照)は同じ結果を返します。
計算されたコンポーネントスコアには分散1があり、コンポーネントの真の標準化された値です。
統計データ分析で主成分係数行列と呼ばれるもので、回転行列ではなく完全な行列から計算される場合、機械学習の文献では(PCAベースの)ホワイトニング行列と呼ばれることが多く、標準化された主成分は「白色化された」データとして認識されます。Bp x p
共通因子分析における計算B
コンポーネントスコアとは異なり、ファクタスコアは決して正確ではありません。それらは、因子の未知の真の値への近似にすぎません。これは、ケースレベルでのコミュニティ性または一意性の値がわからないためです。コンポーネントとは異なり、ファクターはマニフェストとは別の外部変数であり、独自の分布を持っているためです。その要因スコアの不確定性の原因はどれですか。不確定性の問題は論理的に因子解の質に依存しないことに注意してください:因子がどれだけ真実であるか(母集団でデータを生成する潜在的なものに対応する)は、因子の回答者のスコアがどれだけ真実か(正確な推定値)とは別の問題です抽出された因子の)。F
因子スコアは近似値であるため、それらを計算する代替方法が存在し、競合します。
回帰またはサーストーンまたはトンプソンの因子スコア推定法は、で与えられます。ここで、S = P Cは構造負荷の行列です(直交因子解の場合、A = P = S)。回帰法の基礎は脚注1にあります。B=R−1PC=R−1SS=PCA=P=S1
注意。この式はPCAでも使用できます。PCAでは、前のセクションで引用した式と同じ結果が得られます。B
FA(PCAではない)では、回帰計算された因子スコアはまったく「標準化されていない」ように見えます。分散は1ではなく、S S r e g rに等しくなります。変数によるこれらのスコアの回帰。この値は、変数による因子の決定度(真の未知の値)として解釈できます-変数による実際の因子の予測のR2乗、および回帰法がそれを最大化します、-計算された「有効性」スコア。写真2はジオメトリを示しています。(SS r e g rSSregr(n−1)2は、洗練されたメソッドのスコアの分散に等しくなりますが、回帰メソッドの場合、その量は真のfの決定の割合に等しくなります。fによる値。スコア。)SSregr(n−1)
バリアント回帰法の一つは、使用してもよいの代わりにR式。良好な因子分析では、RとR ∗は非常に類似しているという根拠が保証されます。ただし、そうでない場合、特に因子の数が真の母集団数より少ない場合、この方法はスコアに強いバイアスを生じさせます。また、PCAでこの「再現されたR回帰」メソッドを使用しないでください。R∗RRR∗m
Horst's(Mulaik)またはideal(ized)変数アプローチ(Harman)としても知られるPCAの方法。これは、との回帰法であるRの代わりにRの式に。数式がB = (P + )′に帰着することは簡単に示されます(したがって、実際にはCを知る必要はありません)。因子スコアは、コンポーネントスコアであるかのように計算されます。R^RB = (P+)′C
[ラベル「理想化された変数は、」因子またはコンポーネントに応じて以来という事実から来ているモデルの変数の予測部分があるX = F P "、それは以下のF = (P + )" Xを、私たちは代わりにXを未知のため(理想的な)X推定するために、FをスコアとしてF。したがって、Xを「理想化」します。]バツ^= F P′F = (P+)′バツ^バツバツ^FF^バツ
使用される負荷はPCAの負荷ではなく、因子分析であるため、この方法は因子スコアのPCAコンポーネントスコアを渡さないことに注意してください。スコアの計算アプローチがPCAのそれを反映しているだけです。
バートレットの方法。ここで、。この方法は、すべての回答者について、一意の(「エラー」)要因間の変動を最小化しようとします。結果の共通因子スコアの分散は等しくなく、1を超える場合があります。B′= (P′うん− 12P )− 1P′うん− 12p
Anderson-Rubin法は、以前の方法の修正として開発されました。。スコアの分散は正確に1になります。ただし、この方法は、直交因子ソリューション専用です(斜めソリューションの場合、直交スコアが得られます)。B′= (P′うん− 12R U− 12P )- 1 / 2P′うん− 12
マクドナルド・アンダーソン・ルービン方法。マクドナルドは、アンダーソン・ルービンを斜め因子ソリューションにも拡張しました。したがって、これはより一般的です。直交因子を使用すると、実際にはAnderson-Rubinになります。一部のパッケージでは、「Anderson-Rubin」を呼び出すときに、おそらくマクドナルドのメソッドを使用する場合があります。式は:、G及びHが得られるSVD (R 1 / 2 U - 1 2 P C 1 / 2)B = R- 1 / 2G H′C1 / 2GH。(もちろん、 Gの最初の列のみを使用します。)svd (R1 / 2うん− 12P C1 / 2)= G Δ H′m
G
グリーンの方法。マクドナルド・アンダーソン-ルビンと同じ式を使用するが、及びHは、のように計算される:SVD (R - 1 / 2 P C 3 / 2)= G Δ H '。(もちろん、Gの最初の列のみを使用してください。)Greenの方法は、コミュータリティ(または一意性)情報を使用しません。変数の実際の共同性がますます等しくなるにつれて、マクドナルド・アンダーソン・ルービン法に近づき、収束します。また、PCAのロードに適用される場合、GreenはネイティブPCAのメソッドのようなコンポーネントスコアを返します。GHsvd (R- 1 / 2P C3 / 2)= G Δ H′m
G
Krijnen et alの方法。このメソッドは、1つの式で前の2つに対応する一般化です。おそらく、新しい機能や重要な新機能は追加されないので、検討していません。
洗練された方法の比較。
回帰法は、因子スコアとその因子の未知の真の値との相関を最大化します(つまり、統計的妥当性を最大化します)が、スコアはやや偏りがあり、因子間でやや不正確に相関します(たとえば、ソリューション内の因子が直交する場合でも相関します)。これらは最小二乗推定です。
PCAの方法も最小二乗ですが、統計的妥当性は低くなります。計算が高速です。コンピューターのために、今日では因子分析ではあまり使用されていません。(PCAでは、このメソッドはネイティブで最適です。)
バートレットのスコアは、真の因子値の公平な推定値です。スコアは、他の因子の真の未知の値と正確に相関するように計算されます(たとえば、直交解でそれらと相関しないように)。ただし、それらは
、他の因子について計算された因子スコアと不正確に相関する可能性があります。これらは最尤(仮定の多変量正規性の下)推定です。バツ
Anderson-Rubin / McDonald-Anderson-RubinおよびGreenのスコアは、他の因子の因子スコアと正確に相関するように計算されるため、相関保存と呼ばれます。因子スコア間の相関は、解の因子間の相関に等しくなります(たとえば、直交解では、スコアは完全に無相関になります)。しかし、スコアには多少の偏りがあり、妥当性は控えめかもしれません。
この表も確認してください。
[SPSSユーザーへの注意:PCA(「主要コンポーネント」抽出メソッド)を実行しているが、「回帰」メソッド以外のリクエストファクタースコアの場合、プログラムはリクエストを無視し、代わりに「回帰」スコアを計算します(正確です)コンポーネントスコア)。]
参照資料
Grice、James W. Computing and Evaluating Factor Scores // Psychological Methods 2001、Vol。6、No。4、430-450。
ディステファノ、クリスティン等。ファクタスコアの理解と使用//実践的な評価、調査と評価、第14巻、第20巻
テン・ベルジェ、ジョス・MFet al。相関保存因子スコア予測法に関するいくつかの新しい結果//線形代数とその応用289(1999)311-318。
Mulaik、Stanley A. Foundations of Factor Analysis、第2版、2009年
Harman、Harry H. Modern Factor Analysis、第3版、1976年
ノイデッカー、ハインツ。因子スコアの最適なアフィン不偏共分散保存予測について// SORT 28(1)2004年1月から6月、27-36
1F= b1バツ1+ b2バツ2s1s2F
s1= b1r11+ b2r12
s2= b1r12+ b2r22
rバツs = R bFbrs
2