一部の情報はまだ不足していますが(サブスケールあたりの個人とアイテム数)、ここではスケール縮小に関するいくつかの一般的なヒントを示します。また、アンケートレベルで作業しているので、長さがそれほど重要である理由はわかりません(結局、合計スコアや平均スコアなどの要約統計を提供するだけです)。
(a)士気に関連する何らかの構成要素を測定する一連のK項目があり、(b)「一次元」スケールは、異なるファセットに細分される可能性のある2次因子であると想定します。(c)希望するスケールの内容の妥当性を維持しながら、被験者の合計スケールスコアを十分な精度で要約するために、スケールをk <Kアイテムに減らします。
この検証済みスケールのコンテンツ/構成の有効性について:対象の構成を最もよく反映するように、アイテムの数は確かに選択されています。質問表を短くすることで、実際に構成要素のカバレッジが減少します。要素の半分だけを検討する場合は、因子構造が同じままであることを確認することをお勧めします(結局、それらの選択方法にも影響する可能性があります)。これは、従来のFAテクニックを使用して行うことができます。あなたは、著者と同様の精神でスケールを解釈する責任を負います。
スコアの信頼性について:サンプルに依存する指標ですが、アイテムの数を減らすとスコアの信頼性は低下します(Spearman-Brown式を参照)。これを確認するもう1つの方法は、標準測定誤差(SEM)が増加することですが、Leo M Harvillによる「標準測定誤差に関するNCME教育モジュール」を参照してください。言うまでもなく、それは項目の数に依存するすべての指標に適用されます(たとえば、信頼性の1つの形式、つまり内部整合性を推定するために使用できるCronbachのアルファ)。うまくいけば、これは生のスコアに基づくグループ間の比較には影響しません。
したがって、私の推奨事項(最も簡単な方法)は次のようになります。
- 構成範囲を最大化するようにアイテムを選択してください。FAで次元を確認し、一変量応答分布でカバレッジを確認します。
- 項目間の平均相関を以前に報告された相関と比較します。
- フルスケールとコンポジットの内部整合性を計算します。それらが元のスケールで公開された統計と一致していることを確認します(何もテストする必要はありません。これらはサンプルに依存する測定です)。
- 元のスコアと削減された(サブ)スコアの間の線形(またはポリコリック、またはランク)相関をテストして、それらが比較可能であることを確認します(つまり、潜在スコアの個々の場所が生スコアで客観化されているため、大幅に変化しないことを確認します。 );
- 外部のサブジェクト固有の変数(たとえば、性別、年齢、または士気に関連する最善の指標)がある場合は、2つの形式間で既知グループの有効性を比較します。
難しい方法は、潜在的な特性に関する情報を最大限に運ぶアイテムを選択するためにアイテム応答理論に依存することです-縮尺の縮小は実際にはその最良のアプリケーションの1つです。多項性アイテムのモデルの一部は、この質問票の検証スレッドで説明されていました。
2回目の更新後に更新
- 対象が非常に少ない多項アイテムのIRTモデルについては忘れてください。
- 因子分析はまた、このように低いサンプルサイズの影響を受けます。信頼できない因子負荷の見積もりを取得します。
- 30アイテムを2 = 15アイテムで割ったもの(合計スコアの対応するSEMの増加を把握するのは簡単です)ですが、サブスケールを考慮すると、明らかに悪化します(これは実際に私の2番目の質問でした-いいえ。アイテムサブスケールごと(存在する場合)