それらが存在する場合、より多くの要素を抽出する方が常に良いですか?


11

主成分分析とは異なり、因子分析モデルのソリューションは必ずしもネストされていません。つまり、最初の因子のみが抽出された場合と最初の2つの因子が抽出された場合では、最初の因子の負荷(たとえば)は必ずしも同じではありません。

このことを念頭に置いて、相関性の高い一連のマニフェスト変数があり、その内容の理論的知識によって単一の要素によって駆動される必要がある場合を考えてみます。探索的因子分析(並列分析、スクリープロット、固有値> 1など)が因子があることを強く示唆していると想像してください。マニフェスト変数と因子解を使用して、最初の因子の参加者の値を推定(つまり、因子スコアを取得)することに関心があります。 このシナリオでは、次の方がよいでしょう。2

  1. 因子モデルを近似して1因子のみを抽出し、因子スコア(など)を取得する、または
  2. 因子モデルを近似して両方の因子を抽出し因子の因子スコアを取得しますが、2番目の因子のスコアを破棄/無視しますか?

どちらがより良い実践であるのかなぜですか? この問題に関する調査はありますか?


抽出する要素の数を選択するときに、分析前のヒューリスティックデバイスだけに依存するべきではありません。相関の再現(1つではなく2つの因子を抽出すると、どれほど優れていますか?)相関残差は、このソリューションとそのソリューションでどのように分布していますか?(それらは通常、ほぼ均一または正常であるべきであり、長い/太い右尾がないはずです)。データが正常である場合、(ML抽出を使用して)フィットのテストとロードのst.errorsを計算できます。これらすべてに加えて解釈可能性に基づいて、現在のケースでは(1)または(2)のどちらの方法が優れているかを判断できます。
ttnphns 2015年

(続き)最終的に、ジレンマを最後まで判断できるのは、新しいサンプル/確認用FAだけです。ただし、1つの概念。場合 2番目の要因は、大きく異なるために、私は(因子1の、ひいては因子得点)は、2つのソリューションを期待していない(小さなSS負荷抽出後)本当に弱いです。(私はオーバーホールせずにコメントしているので、あまり自信がないと言っています。しかし、論理的に、因子平面がラインに縮退する準備ができている場合、結果はラインとほぼ同じになるはずです...)
ttnphns

QのタイトルIs is always better to extract more factors when they exist?はあまり明確ではありません。存在する数だけ抽出することをお勧めします。あなたが述べた分析の多変量でネストされていない性質により、「真の」潜在構造が歪んでいる、または過剰に適合している。問題は、データに含まれる要素の数が正確にわからないことです。そして、これらのデータが人口と同じ数かどうか。
ttnphns 2015年

1
@ttnphns、あなたの最後のコメントは質問の核心に到達すると思います。新鮮なサンプルでのCFAを含めて、ほとんどすべての共有された分散を説明する2つの要因が実際にあることを納得させたい方法は何でも想定します。2との適合は無視できるほど優れていますが、優れています。これは、問題を強調するための偽物および不自然な例です。根本的な問題は全く同じように5の2アウト使用している可能性
復活モニカ- GUNG

1
問題は、解がネストされていないため、潜在的変数に対する各参加者のスコアをより適切に推定できる方法です。なぜですか。バイアスを1つだけ使用していますか、それは真の値からさらに変化していますか、それとも両方ですか?1を使用するだけでは「不十分」であるため、それは起こりますか?それはどういう意味ですか?歪みの性質を特徴付けることは可能ですか?あるいは、1つだけを抽出することで、分析がその自由度のすべてを可能な限り1番目の精度を得ることに集中できるようになると期待していたかもしれません。
gung-モニカの回復

回答:


5

あなたがほのめかしている問題は、80年代のかなり多くの文献で議論されてきた、心理テスト機器を構築するときの「おおよその一次元性」のトピックです。インスピレーションは過去に存在しました。なぜなら、開業医は伝統的なアイテム応答理論(IRT)モデルをアイテムに使用したかったからです。当時、これらのIRTモデルは、一次元の特性の測定に限定されていました。したがって、テストの多次元性は、(うまくいけば)回避または無視できる厄介なものになることが期待されていました。これは、因子分析(Drasgow and Parsons、1983)およびDETECTメソッドでの並列分析手法の作成につながったものでもあります。

明らかに誤ったモデルをデータに適合させること以外の追加の特性/要因を無視することの結果(つまり、潜在的なモデルの不適合に関する情報を無視することは当然ですが、それはもちろん些細なことかもしれません)は、支配的な要因の特性推定が偏り、したがって、効率が低下します。これらの結論はもちろん、追加の特性のプロパティ(たとえば、それらが一次ディメンションと相関している、強い負荷があるか、交差負荷がいくつあるかなど)に依存しますが、一般的なテーマは、二次推定です。一次特性スコアを取得するための効果は少なくなります。適合しない一次元モデルとバイファクターモデルの比較については、こちらのテクニカルレポートをご覧ください。テクニカルレポートは、まさにあなたが求めているもののようです。

実用的な観点から、情報基準を使用すると、最適なモデルや一般的なモデル適合統計(RMSEA、CFIなど)を選択するときに役立ちます。多次元情報を無視すると、データへの全体的な適合に悪影響が及ぶためです。 。ただし、もちろん、全体的なモデルフィットは、現在のデータに不適切なモデルを使用していることを示す1つの兆候にすぎません。非線形性や単調性の欠如など、不適切な関数形式が使用されている可能性があるため、それぞれの項目/変数も常に検査する必要があります。

また見なさい

Drasgow、F. and Parsons、CK(1983)。多次元データへの一次元項目応答理論モデルの適用。応用心理測定、7(2)、189-199。

Drasgow、F.&Lissak、RI(1983)。変更された並列分析:二分法でスコア付けされた項目応答の潜在的な次元を調べるための手順。Journal of Applied Psychology、68、363-373。

Levent Kirisci、Tse-chi Hsu、およびLifa Yu(2001)。一次元性と正規性の仮定に対する項目パラメータ推定プログラムのロバスト性。応用心理測定、25(2)、146-162。


これを追加していただきありがとうございます。これは私が求めているもののようです。
gung-モニカの回復

タイトルの質問に対する回答が「はい」であることを正しく理解していますか?
amoeba氏は、2015

2
@amoeba一般的に、私は「はい」と言うか、追加の情報を含めることで、厳密な単次元性を課すことと同じかそれ以上の効果があるはずです。既知の多次元性を無視することは非常に問題になる可能性がありますが、もちろんこれにはいくつかの要因が関与します。構造に関する追加情報を含む唯一の時間は、サンプルサイズが小さすぎて追加パラメーターを安定して推定できない場合です。したがって、バイアス効率のトレードオフです。しかし、サンプルサイズがそれほど問題でない場合は、追加の情報を含めることで失うことはほとんどない(ただし、そうでない場合は失うことはたくさんあります)。
philchalmers 2015年

1

本当に第2因子を使用したくない場合は、1因子モデルを使用する必要があります。しかし、2番目の要素を使用すると、最初の要素の負荷が変化するというあなたの発言に戸惑いました。

最初にそのステートメントに対処しましょう。主成分を使用して因子を抽出し、因子回転を使用しない場合、負荷は変化しません-おそらくスケーリングの影響を受けます(または完全な反転:が因子の場合、はそれを次のように表現する正当な方法です上手)。最尤抽出や因子ローテーションを使用する場合、負荷は抽出した因子の数に依存する可能性があります。xx

次に、回転の効果について説明します。私は絵が上手ではないので、言葉で説得してみます。あなたのデータは(ほぼ)正常であると仮定します。そのため、因子スコアもほぼ正常です。1つの因子を抽出すると、1次元の正規分布が得られます。2つの因子を抽出すると、2変量正規分布が得られます。

2変量分布の密度はおおざっぱに言えば帽子のように見えますが、正確な形は相関係数だけでなくスケーリングにも依存します。したがって、2つのコンポーネントのそれぞれに単位分散があると仮定しましょう。無相関の場合、円のように見えるレベルカーブを備えた素敵なソンブレロが得られます。写真はこちら。相関関係は帽子を「つぶす」ため、ナポレオンの帽子のように見えます。

元のデータセットに3つの次元があり、そこから2つの要素を抽出したいとします。正常にもこだわりましょう。この場合、密度は4次元のオブジェクトですが、レベル曲線は3次元であり、少なくとも視覚化できます。無相関の場合、レベルカーブは(サッカーボールのように)球形になります。相関関係が存在する場合、レベル曲線は再び歪められ、フットボール、おそらく空気圧が低いものになり、継ぎ目の厚さが他の方向の厚さよりも小さくなります。

PCAを使用して2つの要素を抽出する場合、フットボールを完全に楕円にフラット化します(そして、すべてのデータポイントを楕円の平面に投影します)。回転されていない最初の因子は楕円の長軸に対応し、2番目の因子は楕円に垂直です(つまり、短軸)。次に、回転は、他のいくつかの便利な基準を満たすために、この楕円内の座標系を選択します。

単一の因子のみを抽出する場合、回転は不可能ですが、抽出されたPCA因子が楕円の長軸に対応することが保証されます。


2
私はこの答えに戸惑っています。質問は、主成分分析とは対照的に、因子分析について明確に尋ねます。
amoeba氏は、2015

因子を抽出する方法は2つあります。主成分、または最大尤度です。私はこれについて統計を行っていませんが、主成分法がより頻繁に使用されていると思います。
user3697176

3
2つ以上のさまざまな方法があります。主軸、ML、最小値、加重最小二乗など-私はここの専門家ではありません。PCAは、たまに(まれに!)因子抽出の方法と見なされることもありますが、それはずさんなことです。別のモデルに適合します。
アメーバは、モニカ

あなたの最初の文は私のQを扱います。それと、なぜそれが正しいのかについてもっと聞いていただければ幸いです。因子を抽出する方法については、@ amoebaが正しいです。PCAとPAFは、他のアルゴリズムがあまり開発されていないか、実装が困難であったときに一般的でした。彼らは現在、広く劣っていると考えられています。Rは、fa()例えば、何年もそれらを使用していません。他の方法では、ネストされていないソリューションが生成され、ソフトウェアとFAデータセットを使用して簡単に検証できます。比較のために、両方のソリューションをローテーションなしと見なすことができます。FWIW、私は球形と楕円形のMVN分布の考え方に精通しています。
gung-モニカの回復

1
@gung、発言。PAFメソッドは、ネストされていないソリューションも提供します。正真正銘のFA法(メソッドとしてはPCAに基づく)であり、今でも広く使用されていると思います。
ttnphns 2015年

1

なぜlavaanやMPlusなどを使用して2つのモデル(1次元モデルとEFAの結果に合わせて調整された2次元モデル)を実行し、異なるモデルの相対および絶対適合インデックス(つまり、情報基準-AICおよびBIC、 RMSEA、SRMR、CFI / TLI)?この道を進む場合は、EFAにPCAを使用するのではなく、主要な要素を使用する必要があることに注意してください。測定に本当に関心のある人は、CFAを完全な構造方程式モデルに組み込むでしょう。

編集:私が検討するように求めているアプローチは、実際にアイテムのセットを説明する潜在的な変数の数を把握することです。大きい方の因子の最良の推定値を取得したい場合は、CFAモデルの因子スコアを、より適合度の高い方に使用して投票します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.