因子スコアを計算する方法、およびPCAまたは因子分析の「スコア係数」マトリックスとは何ですか？

私の理解では、相関に基づくPCAでは、変数（この場合は主成分）の負荷を取得しますが、これは変数と因子間の相関にすぎません。SPSSで因子スコアを生成する必要がある場合、各因子の各回答者の因子スコアを直接取得できます。また、「コンポーネントスコア係数行列」（SPSSによって生成される）に標準化された元の変数を掛けると、SPSSから取得したものと同じファクタースコアが得られることも観察しました。

「コンポーネントスコア係数マトリックス」または「ファクタースコア係数マトリックス」（ファクターまたはコンポーネントスコアを計算できる）がどのように計算されるかを誰かが理解してくれますか？この行列では、計算係数スコアのさまざまな方法がどのように異なりますか？

spss pca factor-analysis

— カルティケヤパンディ
ソース

stats.stackexchange.com/a/92512/3277の例がここにあります。

— ttnphns 14

@ amoeba、PCAを行う場合、「ファクタスコア」という言葉は「コンポーネントスコア」を意味し、同等です。上記のリンクされた回答の下部を参照してください-PCAモデル内で、FAで因子スコアを計算するために最もよく使用される式は、正確な（標準化された）コンポーネントスコアを生成します。

— ttnphns 14

SPSSは係数

マトリックスを表示し、

B

$\bf B$ スコアを新しい変数として保存（標準化）し、元の変数

データセットに追加します

X

$\bf X$ 。OP- 私は思う

X

$\bf X$ を標準化してから、複数の

作りました

X B

$\bf XB$ 。そして、出来上がり、SPSSがデータセットに追加したものです！だから、OPの質問は、Wow！「

B

$\bf B$ 計算方法」が続きます。

— ttnphns

@ttnphsあなたは私の意味を正しく理解しています。しかし、私の問題は、XBを使用して各観測の因子socreを予測している場合、Bは因子負荷であるべきであると仮定していたことですが、SPSSでは、「回転因子負荷」ではなく「コンポーネントスコア係数行列」であるため、「回転因子負荷」と「コンポーネントスコア係数マトリックス」の関係または違いを理解したかった。

— カルティケヤパンディ14

ですから、リンクから理解したように、一度Aを回転させると、（Inverse（A）） 'は「コンポーネントスコア係数行列」であり、式A⋅diagを使用して計算することもできます。 Inverse（（固有値））

— Kartikeya Pandey 14

因子/成分スコアの計算方法

一連のコメントの後、私は最終的に（コメントなどに基づいて）答えを出すことにしました。これは、PCAのコンポーネントスコアおよび因子分析の因子スコアの計算に関するものです。

因子/成分スコアにより与えられる、（分析変数である中心 PCA /因子分析は、共分散に基づいて、またはれた場合のz標準それは相関関係に基づいていた場合には）。は、因子/成分スコア係数（または重み）行列です。これらの重みはどのように推定できますか？ $\bf \hat{F}=XB$ $\bf X$ $\bf B$

表記法

-因子があった方変数（項目）相関または共分散のマトリックス/ PCAは、分析しました。 $\bf R$ p x p

-因子/成分のマトリックス負荷。これらは、抽出後の負荷（多くの場合とも呼ばれる）であり、潜在が直交または実質的に直交するか、回転後の負荷、直交または斜めになります。回転が斜めであった場合、パターンの負荷でなければなりません。 $\bf P$ p x m $\bf A$

-彼らの（負荷）傾斜回転後の因子/成分間の相関関係のマトリクス。回転または直交回転が実行されなかった場合、これは恒等行列です。 $\bf C$ m x m

-再生相関/共分散の行列減少（直交溶液のために）、それは、その対角線上の共通性を含んでいます。 $\bf \hat R$ p x p $\bf = PCP'$ $\bf = PP'$

-uniquenessesの対角行列（の一意+共同性=対角要素）。ここでは、数式を読みやすくするために、上付き文字（）ではなく「2」を下付き文字として使用しています。 $\bf U_2$ p x p $\bf R$ $\bf U^2$

-再生相関/共分散の完全行列。 $\bf R^*$ p x p $\bf = \hat R + U_2$

-行列擬似逆行列。場合フルランクであり、。 $\bf M^+$ $\bf M$ $\bf M$ $\bf M^+ = (M'M)^{-1}M'$

いくつかの正方対称行列、への上昇は固有値分解になり、固有値を累乗して合成し直します：。 $\bf M^{power}$ $\bf M$ $power$ $\bf HKH'=M$ $\bf M^{power}=HK^{power}H'$

因子/成分スコアを計算する粗い方法

Cattellとも呼ばれるこの人気のある/伝統的なアプローチは、同じ係数でロードされるアイテムの値を単純に平均化（または合計）することです。数学的に、それが重み設定に達するスコアの計算に。このアプローチには主に3つのバージョンがあります。1）ローディングをそのまま使用します。2）それらを二分します（1 =ロード、0 =ロードなし）。3）負荷をそのまま使用しますが、あるしきい値よりも小さいゼロオフ負荷を使用します。 $\bf B=P$ $\bf \hat{F}=XB$

多くの場合、このアプローチでは、アイテムが同じスケール単位にある場合、値はそのまま使用されます。ただし、ファクタリングのロジックを壊さないようにするには、ファクタリングに入ったを使用することをお勧めします-標準化（=相関の分析）または中央化（=共分散の分析）。 $\bf X$ $\bf X$

私の見解では、ファクター/コンポーネントのスコアを計算する粗い方法の主な欠点は、ロードされたアイテム間の相関を考慮していないことです。ファクターによってロードされたアイテムが密接に相関し、一方が他方よりも強くロードされた場合、後者はより若い複製と合理的に見なされ、その重量は軽減されます。洗練された方法ではできますが、粗い方法ではできません。

もちろん、行列の反転は必要ないため、粗いスコアは簡単に計算できます。粗い方法の利点（コンピューターの可用性にもかかわらず依然として広く使用されている理由を説明する）は、サンプリングが理想的でない場合（代表性とサイズの意味）または分析が適切に選択されていません。ある論文を引用すると、「元のデータを収集するために使用されるスケールがテストされておらず、信頼性または有効性の証拠がほとんどまたはまったくない場合、合計スコア法が最も望ましい場合があります」。また、それは因子分析モデルがそれを必要とする、単変量潜在エッセンスとして必ずしも「ファクター」を理解する必要はありません（参照、参照）。たとえば、ファクターを現象のコレクションとして概念化することができます-アイテムの値を合計することは合理的です。

因子/成分のスコアを計算する洗練された方法

これらの方法は、因子分析パッケージが行うことです。彼らはさまざまな方法でを推定します。負荷またはは因子/成分によって変数を予測する線形結合の係数ですが、は変数から因子/成分のスコアを計算する係数です。 $\bf B$ $\bf A$ $\bf P$ $\bf B$

を介して計算されたスコアはスケーリングされます：それらは1に等しいまたは近い分散（標準化またはほぼ標準化）-真の因子分散（2乗構造負荷の合計に等しい、ここの脚注3を参照）を持ちます。そのため、因子スコアに真の因子の分散を提供する必要がある場合は、スコアに（それらをst.dev。1に標準化して）その分散の平方根を掛けます。 $\bf B$

行われた分析からを保存して、新しい観測のスコアを計算できるようにすることができます。また、は、スケールが因子分析から作成された場合、またはファクター分析によって検証された場合に、アンケートのスケールを構成する項目に重み付けするために使用できます。（二乗）係数は、因子へのアイテムの寄与として解釈できます。回帰係数は、規格化されているようCoefficintsを標準化することができる $\bf B$ $\bf X$ $\bf B$ $\bf B$ （ここで、）は、異なる分散を持つアイテムの寄与を比較します。 $\beta=b \frac{\sigma_{item}}{\sigma_{factor}}$ $\sigma_{factor}=1$

スコア係数行列からのスコアの計算を含む、PCAおよびFAで行われた計算を示す例を参照してください。

PCA設定における荷重（垂直座標）とスコア係数（スキュー座標）の幾何学的な説明はここの最初の2つの写真に示されています。 $a$ $b$

洗練された方法に移ります。

メソッド

PCA での計算 $\bf B$

成分負荷が抽出されるが回転されない場合、で、は固有値で構成される対角行列です。この式は、各列をそれぞれの固有値（コンポーネントの分散）で割るだけです。 $\bf B= AL^{-1}$ $\bf L$ m $\bf A$

同様に、です。この式は、回転（直交）（バリマックスなど）、または斜めに回転するコンポーネント（負荷）にも当てはまります。 $\bf B= (P^+)'$

PCA内で適用された場合、因子分析で使用されるメソッドの一部（以下を参照）は同じ結果を返します。

計算されたコンポーネントスコアには分散1があり、コンポーネントの真の標準化された値です。

統計データ分析で主成分係数行列と呼ばれるもので、回転行列ではなく完全な行列から計算される場合、機械学習の文献では（PCAベースの）ホワイトニング行列と呼ばれることが多く、標準化された主成分は「白色化された」データとして認識されます。 $\bf B$ p x p

共通因子分析における計算 $\bf B$

コンポーネントスコアとは異なり、ファクタスコアは決して正確ではありません。それらは、因子の未知の真の値への近似にすぎません。これは、ケースレベルでのコミュニティ性または一意性の値がわからないためです。コンポーネントとは異なり、ファクターはマニフェストとは別の外部変数であり、独自の分布を持っているためです。その要因スコアの不確定性の原因はどれですか。不確定性の問題は論理的に因子解の質に依存しないことに注意してください：因子がどれだけ真実であるか（母集団でデータを生成する潜在的なものに対応する）は、因子の回答者のスコアがどれだけ真実か（正確な推定値）とは別の問題です抽出された因子の）。 $\bf F$

因子スコアは近似値であるため、それらを計算する代替方法が存在し、競合します。

回帰またはサーストーンまたはトンプソンの因子スコア推定法は、で与えられます。ここで、は構造負荷の行列です（直交因子解の場合、）。回帰法の基礎は脚注ます。 $\bf B=R^{-1} PC = R^{-1} S$ $\bf S=PC$ $\bf A=P=S$ $^1$

注意。この式はPCAでも使用できます。PCAでは、前のセクションで引用した式と同じ結果が得られます。 $\bf B$

FA（PCAではない）では、回帰計算された因子スコアはまったく「標準化されていない」ように見えます。分散は1ではなく、等しくなります。変数によるこれらのスコアの回帰。この値は、変数による因子の決定度（真の未知の値）として解釈できます-変数による実際の因子の予測のR2乗、および回帰法がそれを最大化します、-計算された「有効性」スコア。写真はジオメトリを示しています。（ $\frac {SS_{regr}}{(n-1)}$ $^2$ は、洗練されたメソッドのスコアの分散に等しくなりますが、回帰メソッドの場合、その量は真のfの決定の割合に等しくなります。fによる値。スコア。） $\frac {SS_{regr}}{(n-1)}$

バリアント回帰法の一つは、使用してもよいの代わりに式。良好な因子分析では、とは非常に類似しているという根拠が保証されます。ただし、そうでない場合、特に因子の数が真の母集団数より少ない場合、この方法はスコアに強いバイアスを生じさせます。また、PCAでこの「再現されたR回帰」メソッドを使用しないでください。 $\bf R^*$ $\bf R$ $\bf R$ $\bf R^*$ m

Horst's（Mulaik）またはideal（ized）変数アプローチ（Harman）としても知られるPCAの方法。これは、との回帰法であるの代わりにの式に。数式が帰着することは簡単に示されます（したがって、実際にはを知る必要はありません）。因子スコアは、コンポーネントスコアであるかのように計算されます。 $\bf \hat R$ $\bf R$ $\bf B= (P^+)'$ $\bf C$

[ラベル「理想化された変数は、」因子またはコンポーネントに応じて以来という事実から来ているモデルの変数の予測部分がある、それは以下の、私たちは代わりに未知のため（理想的な推定するために、スコアとして。したがって、「理想化」します。] $\bf \hat X = FP'$ $\bf F= (P^+)' \hat X$ $\bf X$ $\bf \hat X$ $\bf F$ $\bf \hat F$ $\bf X$

使用される負荷はPCAの負荷ではなく、因子分析であるため、この方法は因子スコアのPCAコンポーネントスコアを渡さないことに注意してください。スコアの計算アプローチがPCAのそれを反映しているだけです。

バートレットの方法。ここで、。この方法は、すべての回答者について、一意の（「エラー」）要因間の変動を最小化しようとします。結果の共通因子スコアの分散は等しくなく、1を超える場合があります。 $\bf B'=(P'U_2^{-1}P)^{-1} P' U_2^{-1}$ p

Anderson-Rubin法は、以前の方法の修正として開発されました。。スコアの分散は正確に1になります。ただし、この方法は、直交因子ソリューション専用です（斜めソリューションの場合、直交スコアが得られます）。 $\bf B'=(P'U_2^{-1}RU_2^{-1}P)^{-1/2} P'U_2^{-1}$

マクドナルド・アンダーソン・ルービン方法。マクドナルドは、アンダーソン・ルービンを斜め因子ソリューションにも拡張しました。したがって、これはより一般的です。直交因子を使用すると、実際にはAnderson-Rubinになります。一部のパッケージでは、「Anderson-Rubin」を呼び出すときに、おそらくマクドナルドのメソッドを使用する場合があります。式は：、及び得られる $\bf B= R^{-1/2} GH' C^{1/2}$ $\bf G$ $\bf H$ 。（もちろん、最初の列のみを使用します。） $\text{svd} \bf (R^{1/2}U_2^{-1}PC^{1/2}) = G \Delta H'$ m $\bf G$

グリーンの方法。マクドナルド・アンダーソン-ルビンと同じ式を使用するが、及びのように計算される：。（もちろん、最初の列のみを使用してください。）Greenの方法は、コミュータリティ（または一意性）情報を使用しません。変数の実際の共同性がますます等しくなるにつれて、マクドナルド・アンダーソン・ルービン法に近づき、収束します。また、PCAのロードに適用される場合、GreenはネイティブPCAのメソッドのようなコンポーネントスコアを返します。 $\bf G$ $\bf H$ $\text{svd} \bf (R^{-1/2}PC^{3/2}) = G \Delta H'$ m $\bf G$

Krijnen et alの方法。このメソッドは、1つの式で前の2つに対応する一般化です。おそらく、新しい機能や重要な新機能は追加されないので、検討していません。

洗練された方法の比較。

回帰法は、因子スコアとその因子の未知の真の値との相関を最大化します（つまり、統計的妥当性を最大化します）が、スコアはやや偏りがあり、因子間でやや不正確に相関します（たとえば、ソリューション内の因子が直交する場合でも相関します）。これらは最小二乗推定です。
PCAの方法も最小二乗ですが、統計的妥当性は低くなります。計算が高速です。コンピューターのために、今日では因子分析ではあまり使用されていません。（PCAでは、このメソッドはネイティブで最適です。）
バートレットのスコアは、真の因子値の公平な推定値です。スコアは、他の因子の真の未知の値と正確に相関するように計算されます（たとえば、直交解でそれらと相関しないように）。ただし、それらは、他の因子について計算された因子スコアと不正確に相関する可能性があります。これらは最尤（仮定の多変量正規性の下）推定です。 $\bf X$
Anderson-Rubin / McDonald-Anderson-RubinおよびGreenのスコアは、他の因子の因子スコアと正確に相関するように計算されるため、相関保存と呼ばれます。因子スコア間の相関は、解の因子間の相関に等しくなります（たとえば、直交解では、スコアは完全に無相関になります）。しかし、スコアには多少の偏りがあり、妥当性は控えめかもしれません。

この表も確認してください。

[SPSSユーザーへの注意：PCA（「主要コンポーネント」抽出メソッド）を実行しているが、「回帰」メソッド以外のリクエストファクタースコアの場合、プログラムはリクエストを無視し、代わりに「回帰」スコアを計算します（正確です）コンポーネントスコア）。]

参照資料

Grice、James W. Computing and Evaluating Factor Scores // Psychological Methods 2001、Vol。6、No。4、430-450。
ディステファノ、クリスティン等。ファクタスコアの理解と使用//実践的な評価、調査と評価、第14巻、第20巻
テン・ベルジェ、ジョス・MFet al。相関保存因子スコア予測法に関するいくつかの新しい結果//線形代数とその応用289（1999）311-318。
Mulaik、Stanley A. Foundations of Factor Analysis、第2版、2009年
Harman、Harry H. Modern Factor Analysis、第3版、1976年
ノイデッカー、ハインツ。因子スコアの最適なアフィン不偏共分散保存予測について// SORT 28（1）2004年1月から6月、27-36

$^1$ $F=b_1X_1+b_2X_2$ $s_1$ $s_2$ $F$

$s_1=b_1r_{11}+b_2r_{12}$

$s_2=b_1r_{12}+b_2r_{22}$

$r$ $X$ $\bf s=Rb$ $F$ $b$ $r$ $s$

$^2$

ここに画像の説明を入力してください

— ttnphns
ソース

いい答え、賛成です！統計全般、特に因子分析の知識に感銘を受けていることを伝えたかっただけです。LinkedInや他のソーシャルネットワークであなたとつながることができてうれしいです。ところで、参考までに、プロファイル内の会社のサイトへのリンクは壊れています。

— アレクサンドルブレフ14

X

$\bf X$

F A

$\bf F \bf A$

F

$\bf F$

R^{- 1} A

$\bf R^{-1} \bf A$

(I + A^{⊤} U^{- 2} A)^{- 1} A^{⊤} U^{- 2}

$(\bf I + \bf A^\top \bf U^{-2} \bf A)^{-1} \bf A^\top \bf U^{-2}$

I

$\bf I$

@amoeba、最初のコメントに関して、答えに少し情報を追加しました。2番目のコメントについて-申し訳ありませんが、本を掘り返さずに答えることはできないと思います。自分で答えを見つけたら、聴衆のためにそれを解明してください。:-)

— ttnphns 14

@ttnphnsのすばらしい更新、すばらしい仕事です。このスレッドは1万3千回表示されており、人気のあるGoogle検索で上位にランクされる必要があることに気付きました。

— アメーバは、

-2

気象学でPCAを行うには、ピアソン相関係数のいずれかを使用して相関係数を取得します（変数の単位が異なる場合、データを標準化するため、データ間のサイズ/大きさの違いによる差異なしで直接比較できるため、そのため、相関係数は、各データセットおよび各データセット間の平均周辺の分散の程度を比較するだけです。そうでなければ、すべてのデータが同じユニットを使用して測定される場合、共分散法を使用できます。

— エクタ
ソース

それは完全に理解不可能です-答えはどのように質問に関連していますか（すなわち、コンポーネント/因子スコアの計算）？

— ttnphns

\underset{n \times p}{Y} = {\underset{p \times p}{E}}^{T} \underset{p \times n}{Z}

$\underset{n\times p}{\bf{Y}} = \underset{p\times p}{\bf{E}}^T \underset{p\times n}{\bf{Z}}$