順序データまたはバイナリデータの因子分析またはPCAはありますか?


28

主成分分析(PCA)、探索的因子分析(EFA)、および確認的因子分析(CFA)を完了し、リッカートスケール(5レベルの応答:なし、少し、いくつか、..)変数。次に、Lavaanを使用して、変数をカテゴリカルとして定義するCFAを繰り返しました。

データが通常の順序である場合、どのタイプの分析が適切で、PCAおよびEFAに相当するかを知りたいと思います。そして、バイナリのとき。

また、このような分析のために簡単に実装できる特定のパッケージまたはソフトウェアの提案も歓迎します。

回答:


38

従来の(線形)PCAおよび因子分析には、スケールレベル(間隔または比率)データが必要です。多くの場合、リッカートタイプの評価データはスケールレベルであると想定されます。これは、そのようなデータが分析しやすいためです。また、特に順序付けられたカテゴリの数が5または6を超える場合、決定は統計的に保証されることがあります(純粋に論理的には、データタイプとスケールレベルの数の問題は異なります)。

しかし、多発性リッカート尺度を序数として扱いたい場合はどうでしょうか?または、二分したデータがありますか?それらに対して探索的因子分析またはPCAを行うことは可能ですか?

現在、カテゴリ順序変数またはバイナリ変数でFA(特別なケースとしてのPCAを含む)を実行するための3つの主なアプローチがあります(バイナリデータのケースに関するこの説明と、順序スケールで何が行われる可能性があるかに関するこの考慮事項もお読みください)。

  1. 最適なスケーリングアプローチ(アプリケーションのファミリ)。カテゴリーPCA(CatPCA)または非線形FAとも呼ばれます。CatPCAでは、順序変数は目的の下で「基になる」区間バージョンに単調に変換(「定量化」)され、それらの区間データから抽出された主成分の選択数によって説明される分散を最大化します。事前に主成分の数を決定することは、メソッドを公然と目標駆動型(理論駆動型ではなく)にし、重要にします。PCAの代わりに真のFAが必要な場合、CatPCAから出力されたこれらの変換された変数に対して通常の線形FAを自然に実行できます。バイナリ変数を使用すると、CatPCAは(残念ながら?)通常のPCAのように、つまり連続変数であるかのように動作します。CatPCAは、名義変数および変数タイプの混合(nice)も受け入れます。

  2. 推定される基礎変数アプローチ。PCA / FAは上で行わとしても知らtetrachoric(バイナリデータ)またはpolychoric相関(順序データの場合)。すべてのマニフェスト変数の基礎となる(その後、ビニングされた)連続変数の正規分布が想定されます。次に、古典的なFAを適用して、前述の相関関係を分析します。このアプローチでは、間隔、順序、バイナリデータを簡単に混在させることができます。このアプローチの欠点の1つは、相関を推測する際に、基礎となる変数の多変量分布の手がかりが得られないことです。

  3. アイテム応答理論(IRT)アプローチ。ロジスティックFAまたは潜在特性分析とも呼ばれます。バイナリロジット(バイナリデータの場合)または比例ログオッズ(順序データの場合)モデルに非常に近いモデルが適用されます。このアルゴリズムは、相関行列の分解と結び付けられていないため、従来のFAから少し離れていますが、それでも真正のカテゴリFAです。「差別パラメータ」はFAの負荷に密接に対応しますが、FAの「一意性」の概念を「困難」に置き換えます。要因の数が増えると、IRTフィッティングの確実性は急速に低下します。これは、このアプローチの問題のある側面です。IRTは、独自の方法で拡張可能で、混合された間隔+バイナリ+順序変数、場合によっては名義変数を組み込むことができます。

アプローチ(2)および(3)の因子スコアは、従来のFAまたはアプローチ(1)の因子スコアよりも推定が困難です。ただし、いくつかの方法が存在します(予想または最大事後方法、最尤法など)。

因子分析モデルの仮定は、従来のFAと3つのアプローチで主に同じです。アプローチ(1)は、R、SPSS、SASで使用できます(私の考えでは)。アプローチ(2)および(3)は、主にMplus、LISREL、EQSなどの特殊な潜在変数パッケージで実装されます。

  1. 多項式アプローチ。それはまだ完全には開発されていません。主成分は、変数の多項式の組み合わせとしてモデル化できます(多項式を使用することは、順序リグレッサの非線形効果をモデル化する一般的な方法です)。また、観測されたカテゴリは、潜在因子の多項式の組み合わせの個別の兆候としてモデル化できます。

  2. 次元削減の非線形技術の盛んな分野が存在します。それらのいくつかは、カテゴリデータ(特にバイナリ、または高次元のスパースデータセットに2値化した後)を処理するために適用または採用できます。

  3. r

見て、このこのこのこのこのこのこのこの


3
驚異的な答え。追加することは、Rのpsychパッケージを使用して、(2)(fa関数の「cor」オプションを参照)および(3)(irt.faおよびirt.poly関数を参照)のアプローチを実装できると思うことです。 )さまざまな程度で、ltmパッケージを使用して多くのIRTモデルに適合させることもできます。
-jsakaluk

1
異なる場合があります。「非線形FA」(CatPCA-then-EFA)によるインベントリ作成/検証を数回行いましたが、通常の(線形)EFAよりも良い結果が得られました。私が採用した手順は、通常のFAと同様でしたが、唯一の違いは、すべての分析-試行するすべての項目セットおよび抽出するすべての要因-CatPCA-then(quantified variables)-EFA pas de deux 。
ttnphns

@jsakaluk、情報ありがとうございます。(私はRユーザーではないので、その驚異的な能力をほとんど知らない)。
ttnphns

徹底的な対応ありがとうございます。私はSPSS 23 IでCATPCAを実装しようと、今日の大半を費やしてきた@ttnphnsは、2つのチュートリアル(リンティング&Kooij(2012)&見つけるために管理unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/...をまだ)私自身の質問のいくつかに答えることができませんでした。いくつかの技術的な質問に対処するための良い方法を提案していただけますか?ありがとうございました。
user116948

1
@ user116948、SPSSでの操作方法がわからない場合:まず、[ヘルプ]メニューの[SPSSケーススタディ]サブメニューでCATPCAケーススタディを見つけて読んでください。次に、このサイトで既に尋ねられたCATPCAに関するすべての質問を参照します。3番目:まだ質問がある場合-サイトで新しい質問として質問します。心配しないでください。「技術的すぎる」場合は、StackOveflowに転送される可能性があります。第4回:SPSSコミュニティを選んで質問してください(SPSSXLが最適です)。君に乾杯。
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.