主成分分析(PCA)、探索的因子分析(EFA)、および確認的因子分析(CFA)を完了し、リッカートスケール(5レベルの応答:なし、少し、いくつか、..)変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。
データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。
また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。
主成分分析(PCA)、探索的因子分析(EFA)、および確認的因子分析(CFA)を完了し、リッカートスケール(5レベルの応答:なし、少し、いくつか、..)変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。
データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。
また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。
回答:
従来の(線形)PCAおよび因子分析には、スケールレベル(間隔または比率)データが必要です。多くの場合、リッカートタイプの評価データはスケールレベルであると想定されます。これは、そのようなデータが分析しやすいためです。また、特に順序付けられたカテゴリの数が5または6を超える場合、決定は統計的に保証されることがあります(純粋に論理的には、データタイプとスケールレベルの数の問題は異なります)。
しかし、多発性リッカート尺度を序数として扱いたい場合はどうでしょうか?または、二分したデータがありますか?それらに対して探索的因子分析またはPCAを行うことは可能ですか?
現在、カテゴリ順序変数またはバイナリ変数でFA(特別なケースとしてのPCAを含む)を実行するための3つの主なアプローチがあります(バイナリデータのケースに関するこの説明と、順序スケールで何が行われる可能性があるかに関するこの考慮事項もお読みください)。
最適なスケーリングアプローチ(アプリケーションのファミリ)。カテゴリーPCA(CatPCA)または非線形FAとも呼ばれます。CatPCAでは、順序変数は目的の下で「基になる」区間バージョンに単調に変換(「定量化」)され、それらの区間データから抽出された主成分の選択数によって説明される分散を最大化します。事前に主成分の数を決定することは、メソッドを公然と目標駆動型(理論駆動型ではなく)にし、重要にします。PCAの代わりに真のFAが必要な場合、CatPCAから出力されたこれらの変換された変数に対して通常の線形FAを自然に実行できます。バイナリ変数を使用すると、CatPCAは(残念ながら?)通常のPCAのように、つまり連続変数であるかのように動作します。CatPCAは、名義変数および変数タイプの混合(nice)も受け入れます。
推定される基礎変数アプローチ。PCA / FAは上で行わとしても知らtetrachoric(バイナリデータ)またはpolychoric相関(順序データの場合)。すべてのマニフェスト変数の基礎となる(その後、ビニングされた)連続変数の正規分布が想定されます。次に、古典的なFAを適用して、前述の相関関係を分析します。このアプローチでは、間隔、順序、バイナリデータを簡単に混在させることができます。このアプローチの欠点の1つは、相関を推測する際に、基礎となる変数の多変量分布の手がかりが得られないことです。
アイテム応答理論(IRT)アプローチ。ロジスティックFAまたは潜在特性分析とも呼ばれます。バイナリロジット(バイナリデータの場合)または比例ログオッズ(順序データの場合)モデルに非常に近いモデルが適用されます。このアルゴリズムは、相関行列の分解と結び付けられていないため、従来のFAから少し離れていますが、それでも真正のカテゴリFAです。「差別パラメータ」はFAの負荷に密接に対応しますが、FAの「一意性」の概念を「困難」に置き換えます。要因の数が増えると、IRTフィッティングの確実性は急速に低下します。これは、このアプローチの問題のある側面です。IRTは、独自の方法で拡張可能で、混合された間隔+バイナリ+順序変数、場合によっては名義変数を組み込むことができます。
アプローチ(2)および(3)の因子スコアは、従来のFAまたはアプローチ(1)の因子スコアよりも推定が困難です。ただし、いくつかの方法が存在します(予想または最大事後方法、最尤法など)。
因子分析モデルの仮定は、従来のFAと3つのアプローチで主に同じです。アプローチ(1)は、R、SPSS、SASで使用できます(私の考えでは)。アプローチ(2)および(3)は、主にMplus、LISREL、EQSなどの特殊な潜在変数パッケージで実装されます。
多項式アプローチ。それはまだ完全には開発されていません。主成分は、変数の多項式の組み合わせとしてモデル化できます(多項式を使用することは、順序リグレッサの非線形効果をモデル化する一般的な方法です)。また、観測されたカテゴリは、潜在因子の多項式の組み合わせの個別の兆候としてモデル化できます。
次元削減の非線形技術の盛んな分野が存在します。それらのいくつかは、カテゴリデータ(特にバイナリ、または高次元のスパースデータセットに2値化した後)を処理するために適用または採用できます。