因子分析、内部一貫性、およびアイテム応答理論を組み合わせて使用​​して、アイテムの数を減らす方法は?


12

私は経験的にアンケートを作成している最中であり、この例では任意の数字を使用して説明します。文脈のために、私は不安障害を持つ個人で一般的に特定される思考パターンを評価することを目的とした心理学的アンケートを作成しています。アイテムは、「オーブンがオフになっていることを確認できないため、オーブンを繰り返しチェックする必要があります」のように見えます。

1つまたは2つの要素で構成される20の質問(5点リッカート)があります(実際には、10のスケールで構成される200の質問があり、各スケールは2つの要素で構成されることに注意してください)。約半分の項目を消去して、2つの要因のいずれかに10の質問を残します。

探索的因子分析(EFA)、内部整合性(クロンバッハのアルファ)、アイテム応答理論(IRT)のアイテム特性曲線に精通しています。これらのメソッドのいずれかを使用して、単一のスケール内でどのアイテムが「悪い」かを判断する方法がわかります。それぞれの方法が異なる質問に答えることに感謝しますが、それらは同様の結果につながる可能性があり、どの「質問」が最も重要かはわかりません。

始める前に、これらの各メソッドで何をしているのかを個別に確認してください。

  • EFAを使用して、要因の数を特定し、それぞれの要因で最も負荷が少ない(たとえば<.30とする)項目、または実質的に要因間で相互に負荷をかける項目を削除します。

  • 内部整合性を使用して、「アルファがアイテムを削除した場合」の悪いアイテムを削除します。スケール内の1つの因子を想定して行うことも、初期EFAの後に因子の数を特定し、その後各因子に対してアルファを実行することもできます。

  • IRTを使用して、(5リッカート)応答オプションに沿って関心のある要因を評価しないアイテムを削除します。私はアイテムの特性曲線を目撃します。基本的には、リッカートスケールのオプション1から潜在スコアに沿って最大5までの45度の角度の線を探します。1つの因子を仮定してこれを行うことも、最初の
    EFAの後に因子の数を特定し、その後各因子の曲線を実行することもできます。

どのアイテムが「最悪」であるかを最も適切に特定するために、これらの方法のどれを使用するかわかりません。広義の最悪の場合は、信頼性または有効性のいずれかの観点から項目が測定値を損なうように使用します。どちらも私にとって同様に重要です。おそらく私はそれらを一緒に使用することができますが、どうすればいいのかわかりません。

私が今知っていることを進めて、ベストショットを与えるとしたら、次のようにします。

  1. EFAを実行して、多くの要因を特定します。また、他の分析でどのように動作するかに関係なく、負荷が大きくないアイテムが必要ないため、それぞれの要因で負荷が低いアイテムを削除します。
  2. IRTを実行し、EFAから残っている場合は、その分析によって判断された不良アイテムも削除します。
  3. CronbachのAlphaを報告するだけで、アイテムを削除する手段としてそのメトリックを使用しないでください。

一般的なガイドラインは大歓迎です!

また、おそらく回答できる特定の質問のリストもあります。

  1. 因子負荷に基づいてアイテムを削除することと、Chronbachのアルファに基づいてアイテムを削除することの実際的な違いは何ですか(両方の分析に同じ因子レイアウトを使用すると仮定)?

  2. どちらを先にすればいいですか?EFAとIRTを1つの要素で行い、両方とも削除する必要がある異なるアイテムを特定すると仮定すると、どの分析を優先する必要がありますか?

Chronbachのアルファを報告しますが、これらの分析をすべて行うことに苦労しているわけではありません。IRTだけを行うと、何かが足りなくなるだけでなく、EFAだけでも同じように感じます。


FAを介してコンストラクトの有効性を達成することを選択した場合、もちろん、FAで開始する必要があります(たとえば、偏った分布などの「不良」なアイテムを選別した後)。FAとの関わりは複雑で反復的です。より多くのアイテムが、その後再実行もう一度、削除する場合はFAを再実行し、最も「弱い」の項目を投げた後、KMO指数、相関関係の回復の程度、因子解釈可能、チェックをチェック
ttnphns


1
最も低い「アイテムが削除された場合はアルファ」が最も低いアイテムを削除します

変わっている!この基本的な質問については、3年以内に承認された答えはありません。
ホワイトガール

回答:


3

引用はありませんが、ここに提案するものを示します。

ゼロ:可能な限り、データをトレーニングとテストセットに分割します。

最初にEFAを行います。質問の知識に基づいて、さまざまなソリューションを見て、どのソリューションが意味をなすかを確認してください。Cronbachのアルファ版の前にこれを行う必要があります。そうしないと、どのアイテムがどのファクターに入るかわかりません。(すべてのアイテムでアルファを実行することは、おそらく良い考えではありません)。

次に、アルファを実行し、各要因で他のものよりも相関がはるかに低いアイテムを削除します。任意のカットオフを設定するのではなく、他のものよりはるかに低いものを探します。それらを削除することが理にかなっているかどうかを確認してください。

最後に、IRTからさまざまな「難易度」レベルのアイテムを選択します。

次に、可能であれば、テストセットでこれをやり直しますが、探索は行いません。つまり、トレーニングセットで見つかった結果がテストセットでどの程度機能するかを確認します。


答えてくれてありがとう。これは私が考えていた方向に沿っていますが、データを分割するケースがあるかどうかはわかりません。また、アイテムは5ポイントのリッカートスケールであるため、それらのほとんど、または少なくとも「良いもの」が同様の難易度を示すことを期待しています。
Behacad

1
確かに、あなたは良い参考文献を知っています:-)私は次の点であなたをからかいます(このスレッドは将来の質問の参考になるでしょうから)。(a)通常、Cronbachのアルファに基づくアイテムの削除は、相互検証スキームを考慮せずに行われます。明らかに、同じ個人を使用して両方の測定値を推定するため、偏ったアプローチです。(b)別の選択肢は、休憩スコア(つまり、検討中のアイテムを含まない合計スコア)を考慮することにより、アイテム/スケールの相関をベースにすることです。(...)
chl

1
(...)(c)最後に、IRTモデルは、多くの場合、アイテムの適合統計などに基づいて(スケール精製の精神で)アイテムを破棄するために使用されます。そのアプローチについてのあなたの意見は何ですか?
chl

参考までに、これらの各メソッドのリファレンスはおそらく個別に見つけることができますが、これらのメソッドを組み合わせて使用​​する可能性のあるリファレンスをいただければ幸いです。参照は本当に素晴らしいでしょう!あなたは知っている(そしておそらく!)レビューアー...
Behacad

@chl参照を掘り下げることはできましたが、頭上でそれらを知ることはできません。a)とb)では、おそらくほとんどの人が思っているよりも重要です。誰かがシミュレーションを行う必要があります。on c)IRTをやってからしばらく経ちました(私の学位は心理測定学ですが、それはずっと前です)。
ピーターフロム-モニカの復職

2

提案された3つの基準はすべて、実際にはIRT、より具体的には多次元IRTで実行できます。サンプルサイズがかなり大きい場合は、各サブスケールでサンプルサイズを調整する一貫した方法です。このようにして、アイテムを個別にモデリングするためのIRTの利点を得ることができます(一部のアイテムにノミナルモデルを使用し、一部のクレジットを一般化するか、他のグレードに格付けするか、可能であれば格付けスケールを設定して、より単調なアイテムの解釈を支援します)。

θ

θ

ほとんどのIRTソフトウェアの単一次元要件に適合しないアイテムを削除しようとすることもできますが、手元の構造の理論的表現に影響する場合、これを必ずしも推奨しません。経験的なアプリケーションでは、通常、モデルを理論に適合させようとする方が良いでしょう。また、体系的で理論的に望ましい方法で多次元性を考慮しながらすべての可能なアイテムを含めたいため、バイファクター/ 2層モデルが適している傾向があります。


ありがとう!IRTで経験的信頼性をどのように測定しますか?これは情報と同じですか?
Behacad

θ^rバツバツ=T/T+Eθmirtfscores()sirtTAM

@ philchalmers、plsは、あなたがそれに答えることができるかどうかを見て質問します。
ホワイトガール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.