探索的因子分析によるRとSPSS間の矛盾の解釈
私はコンピューターサイエンスの大学院生です。私は研究プロジェクトのためにいくつかの探索的因子分析を行ってきました。私の同僚(プロジェクトを率いる)はSPSSを使用しますが、私はRを使用することを好みます。これは、2つの統計パッケージ間に大きな不一致を発見するまで問題ではありませんでした。 抽出方法として主軸ファクタリングを使用しています(PCAと因子分析の違いを十分に認識しており、少なくとも意図的にPCAを使用していないことに注意してください)。私が読んだことから、これはRの「主軸」メソッド、およびRのドキュメントによると SPSSの「主軸因数分解」または「非加重最小二乗」のいずれかに対応するはずです。相関因子を期待し、パターンマトリックスを解釈しているため、斜め回転法(具体的にはpromax)を使用しています。 RとSPSSで2つの手順を実行すると、大きな違いがあります。パターン行列はさまざまな負荷を与えます。これにより、変数関係にほぼ同じ要因が与えられますが、対応する負荷には最大0.15の差があります。これは、抽出方法とプロマックス回転の異なる実装によって予想されるよりも大きいようです。しかし、それは最も驚くべき違いではありません。 要因によって説明される累積分散は、SPSS結果で約40%、R結果で31%です。これは大きな違いであり、Rの代わりにSPSSを使用することを同僚に求めています。これには問題はありませんが、大きな違いがあるため、何かを間違って解釈している可能性があると思います。これは問題です。 SPSSは、水をさらに濁らせて、非加重最小二乗ファクタリングを実行すると、さまざまな種類の説明された分散を報告します。初期固有値による説明された分散の割合は40%ですが、抽出平方和(SSL)からの説明された分散の割合は33%です。これにより、初期固有値は見るのに適切な数ではないと思うようになります(これは回転の前に説明された分散であると思われますが、それは非常に大きいのですが)。さらに紛らわしいことに、SPSSはRotation SSLも表示しますが、説明された分散の割合を計算しません(相関係数があるため、SSLを追加して合計分散を見つけることができないことを教えてくれます。Rから報告されたSSLはこれらのいずれにも一致せず、Rは合計分散の31%を表すと教えてくれます。RのSSLは、ローテーションSSLと最も密接に一致します。元の相関行列からのRの固有値は、SPSSからの初期固有値と一致します。 また、私はさまざまな方法を使用して遊んでいましたが、SPSSのULSとPAFはRのPA方法に最も近いようです。 私の具体的な質問: 因子分析の実装では、RとSPSSの間でどの程度の違いが予想されますか? SPSSからの二乗荷重の和、初期固有値、抽出、回転のどれを解釈する必要がありますか? 私が見落としていたかもしれない他の問題はありますか? SPSSおよびRへの私の呼び出しは次のとおりです。 SPSS: FACTOR /VARIABLES <variables> /MISSING PAIRWISE /ANALYSIS <variables> /PRINT INITIAL KMO AIC EXTRACTION ROTATION /FORMAT BLANK(.35) /CRITERIA FACTORS(6) ITERATE(25) /EXTRACTION ULS /CRITERIA ITERATE(25) /ROTATION PROMAX(4). R: library(psych) fa.results <- fa(data, nfactors=6, rotate="promax", scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)