公開されたリッカート尺度の項目数を有効に減らすことはできますか?


11

[フィードバックに応じて行われた編集-感謝:-)]

どー!さらに編集!ごめんなさい!

こんにちは-

私は、モラールや他のそのような問題について公表された尺度を使用してヘルスケアスタッフに送信される調査で、かなりラフで準備が整ったデータ収集を行っています。

唯一のことは、スケールは調査の他のすべてのものと比べてかなり長いことです。私は、各サブスケールを半分にカットし、アイテムの半分だけを使用することでサイズを縮小したいと考えています。私の直感では、サブスケールは相互に相関しているため、これで問題ありません。出版基準の調査には理想的ではありませんが、組織内の事実を少しでも発見しても問題ありません。

これを行うことの有効性、落とし穴、または他の何かについて誰かが何か考えを持っているのではないかと思いました。私の同僚には説得力のあるものが必要なので、特に参考文献はありがたいです。

どうもありがとう、クリスB

編集-

はい、それは既知の心理測定特性を持つ検証済みのスケールです。

一次元であり、サブスケールがあります。

アイテムレベルではなく、サブスケールレベルと合計レベルで作業します。

30アイテム、おそらく約40-60個人。

乾杯!


これは、既知の心理測定特性を持つ検証済みのスケールですか?
ch

こんにちはクリス。リッカートスケールでアイテムの数を減らすのではなく、リッカートスケールで測定される質問/アイテムの数を減らします。一般にそれはあなたの措置に依存するように聞こえます。削除する予定のアイテムと、保持しているアイテムの相関関係を確認できます。削除する量を測定する方法は、実際には興味深いです。質問をそのように再構成することは価値があるかもしれません(そうしない場合は、後で行うかもしれません)。良い質問:)
Tal Galili

3つの追加の質問:(1)これは1次元のスケールですか、それともいくつかのサブスケールがありますか?(2)個人の数とアイテムの数は何ですか?または平均スコア?
2010年

回答:


11

一部の情報はまだ不足していますが(サブスケールあたりの個人とアイテム数)、ここではスケール縮小に関するいくつかの一般的なヒントを示します。また、アンケートレベルで作業しているので、長さがそれほど重要である理由はわかりません(結局、合計スコアや平均スコアなどの要約統計を提供するだけです)。

(a)士気に関連する何らかの構成要素を測定する一連のK項目があり、(b)「一次元」スケールは、異なるファセットに細分される可能性のある2次因子であると想定します。(c)希望するスケールの内容の妥当性を維持しながら、被験者の合計スケールスコアを十分な精度で要約するために、スケールをk <Kアイテムに減らします。

この検証済みスケールのコンテンツ/構成の有効性について:対象の構成を最もよく反映するように、アイテムの数は確かに選択されています。質問表を短くすることで、実際に構成要素のカバレッジが減少します。要素の半分だけを検討する場合は、因子構造が同じままであることを確認することをお勧めします(結局、それらの選択方法にも影響する可能性があります)。これは、従来のFAテクニックを使用して行うことができます。あなたは、著者と同様の精神でスケールを解釈する責任を負います。

スコアの信頼性について:サンプルに依存する指標ですが、アイテムの数を減らすとスコアの信頼性は低下します(Spearman-Brown式を参照)。これを確認するもう1つの方法は、標準測定誤差(SEM)が増加することですが、Leo M Harvillによる「標準測定誤差に関するNCME教育モジュール」を参照してください。言うまでもなく、それは項目の数に依存するすべての指標に適用されます(たとえば、信頼性の1つの形式、つまり内部整合性を推定するために使用できるCronbachのアルファ)。うまくいけば、これは生のスコアに基づくグループ間の比較には影響しません。

したがって、私の推奨事項(最も簡単な方法)は次のようになります。

  1. 構成範囲を最大化するようにアイテムを選択してください。FAで次元を確認し、一変量応答分布でカバレッジを確認します。
  2. 項目間の平均相関を以前に報告された相関と比較します。
  3. フルスケールとコンポジットの内部整合性を計算します。それらが元のスケールで公開された統計と一致していることを確認します(何もテストする必要はありません。これらはサンプルに依存する測定です)。
  4. 元のスコアと削減された(サブ)スコアの間の線形(またはポリコリック、またはランク)相関をテストして、それらが比較可能であることを確認します(つまり、潜在スコアの個々の場所が生スコアで客観化されているため、大幅に変化しないことを確認します。 );
  5. 外部のサブジェクト固有の変数(たとえば、性別、年齢、または士気に関連する最善の指標)がある場合は、2つの形式間で既知グループの有効性を比較します。

難しい方法は、潜在的な特性に関する情報を最大限に運ぶアイテムを選択するためにアイテム応答理論に依存することです-縮尺の縮小は実際にはその最良のアプリケーションの1つです。多項性アイテムのモデルの一部は、この質問票の検証スレッドで説明されていました。

2回目の更新後に更新

  1. 対象が非常に少ない多項アイテムのIRTモデルについては忘れてください。
  2. 因子分析はまた、このように低いサンプルサイズの影響を受けます。信頼できない因子負荷の見積もりを取得します。
  3. 30アイテムを2 = 15アイテムで割ったもの(合計スコアの対応するSEMの増加を把握するのは簡単です)ですが、サブスケールを考慮すると、明らかに悪化します(これは実際に私の2番目の質問でした-いいえ。アイテムサブスケールごと(存在する場合)

8

あなたの質問に対する明確な「はい/いいえ」の答えはないと思います。サブスケールからアイテムを任意にドロップして、元のアンケートの短い形式を作成すると、長い形式の心理測定の検証が失われます。変化する可能性があるのは、アンケートの要因構造、サブスケールの信頼性、項目と合計の相関などです(IRTではなく、古典的なテスト理論の考え方に慣れていることに注意してください)。さらに、元のアンケートの標準化を使用することはできません。そのため、確立されたアンケートの短い形式では、個別の検証フェーズを実行する必要があります。

ただし、要件によっては、すべてが失われるわけではありません。参照母集団に関して「絶対的な」判断をせずに、サンプル内の結果のみを比較したい場合があるため、標準化は必要ない場合があります。私見、少なくともグループのサブサンプルについて、元のフォームで短いフォームを検証する機会があれば、それはプラスになります。これにより、結果が類似しているかどうかを確認できる場合があります。

ただし、一般に、アンケートの結果は、そのアイテムの構成に驚くほど敏感になる可能性があります。人々はロボットにアンケートを記入するのではなく、あらゆる種類の暗黙の仮定と認知的推論を行います:「これは本当に何ですか?」、「ここで報告することは何を期待しますか?」、「彼らは実際に何を知りたいですか?」これは、アイテムの特定のコンテキストによって大きく影響を受ける可能性があります。シュワルツ、N。1996。認知とコミュニケーション:判断バイアス、研究方法、および会話の論理。ニュージャージー州マーワー:ローレンス・エルバウム。


4

1点追加します。

グループ(たとえば、時間の経過に伴うグループ平均の比較)と個々のレベル測定(たとえば、スケールのスコアと他のレベルの個人レベルの相関)の違いに注意してください。

信頼性は2つのレベルに異なって適用されます。おそらく、次の簡略化が役立ちます。

  • グループレベルの測定の信頼性は、参加者の数と、グループレベルでの真の変動の程度に大きく影響されます。
  • 個人レベルの測定の信頼性は、所有しているアイテムの数と個人の真のばらつきの程度に大きく影響されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.